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(54) 发 明 名 称 

仿 人 机 器 人 步行 控制 方法 
(57) 摘要 

仿 人 机 器 人 步行 控制 方法 ,属于 仿 人 机 器 人 
领域 ,为 了 解决 提高 仿 人 机 器 人 在 行走 过 程 中 的 
稳定 与 平衡 能 力 的 问题 ,本 发 明 提出 如 下 技术 方 
案 : 一 种 仿 人 机 器 人 步行 控制 方法 ,对 仿 人 机 器 
人 进行 离线 步 态 规划 ,使 仿 人 机 器 人 跟踪 离线 生 
成 的 关节 运动 轨迹 具备 行走 能 力 ;实时 采集 仿 人 
机 器 人 行走 过 程 中 的 状态 信息 ,响应 于 状态 信息 
的 稳定 控制 器 ,实时 在 线 调整 仿 人 机 器 人 的 步行 
姿态 ,使 其 能 够 在 非 平整 路 面 行走 ,效果 是 采用 
离线 步 态 规 划 与 线 稳定 控制 相 结 合 的 方式 实现 
仿 人 机 器 人 步行 控制 ,效果 是 使 仿 人 机 器 人 具备 
适应 复杂 环境 的 能 力 。 
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1 .一 种 仿 人 机 器 人 步行 控制 方法 ,其 特征 在 于 : 

对 仿 人 机 器 人 进行 离线 步 态 规划 ,使 仿 人 机 器 人 跟踪 离线 生成 的 关节 运动 轨迹 具备 行 
走 能 

实时 采集 仿 人 机 器 人 行走 过 才 程 中 的 状态 信息 ,响应 于 状态 信息 的 稳定 控制 器 ,实时 在 
线 调整 仿 人 机 器 人 的 步行 姿态 ,使 其 能 够 在 非 平整 路 面 行走 ;对 仿 人 机 器 人 进行 离线 步 态 
规划 的 步骤 如 下 : 

获取 仿 人 机 器 人 的 多 连 杆 模型 ; 
通过 ZMP 稳 定性 理论 确定 步 态 子 周 期 内 ZMP 移 动 轨迹 ; 
响应 于 多 连 杆 模型 和 ZMP 移 动 轨 迹 , 进 行 机 器 人 中 关节 与 通关 节 轨 迹 规 划 ; 
响应 于 ZMP 移 动 轨迹 及 躁 关节 、 髋 关节 轨迹 规划 ,通过 关节 的 运动 学 关系 获取 下 上 肢 关 节 
的 轨迹 ; 

归 因 于 为 提高 ZMP 稳 定 裕 度 、 减 小 躁 关节 轨迹 跟踪 误差 ,而 对 关节 旋转 角 使 用 三 次 样 条 
法 进行 描述 ，; 

使 用 蚁 群 算法 对 下 歧 关 节 的 轨迹 优化 而 得 到 完整 离线 步 

仿 人 机 器 人 在 斜坡 路 面 行走 时 的 状态 信息 作为 稳定 控 人 Re 
输入 为 : 

SD 0 (20 (9 ,(t)] (3.28) 


共 中 ,9 (D ,9 (D ,9 (b 分 别 为 加 速 传感器 在 三 个 方向 上 采集 的 数值 信号 ,f 
() 是 与 仿 人 机 器 人 的 支撑 脚 有 关 的 变量 ,1 为 左 脚 ,-1 为 右 脚 ; 
在 t 时 刻 ,根据 仿 人 机 器 人 提供 的 状态 信息 得 到 对 应 的 动作 输出 : 


a(0)-{Ab,A@ Ab Ab Ab Ab | (3.29) 
其 中 , Ag”，A6”，A9” 分 别 为 右 脚 的 俯仰 轴 躁 关节、 俯仰 轴 膝 关节 以 及 俯仰 轴 髋 关 
节 相 较 于 离线 步 态 的 关节 旋转 角度 调整 量 ; Ab” ，A6b" ，Ab" 分 别 为 左 脚 的 俯仰 轴 躁 关 


节 、 俯 仰 轴 膝 关节 以 及 俯仰 轴 髋 关节 相 较 于 离线 步 态 的 关节 旋转 角度 调整 量 ; 
对 动作 a (t) 进行 处 理 : 


Qeal time (7) = Cine (/ )+ S (/ ) 0 の 


(3.30) 


其 中 ,a ,us ( 是 关节 实时 输出 角度 ,a_n (t) 是 离线 轨迹 的 关节 角度 , 6 是 用 来 调 
节 关节 调整 持续 时 间 的 衰减 系数 ,S (t) 是 一 个 自然 边界 条 件 下 的 三 次 样 条 差 值 函数 ,由 以 
下 约束 确定 : 


(3.31) 


其 中 , A 9 是 对 应 关节 的 调整 量 。 
2. 如 权利 要 求 1 所 述 的 仿 人 机 器 人 步行 控制 方法 ,其 特征 在 于 : 
稳定 控制 器 的 学 习 方法 如 下 : 
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1) 将 仿 人 机 器 人 的 当前 时 刻 的 状态 st) 输入 Actor 神 经 网 络 和 Critic 神 经 网 络 ， 


Actor 神 经 网 络 提供 动作 输出 a (tb) ; 


②) 仿 人 机 器 人 响应 于 离线 步 态 ,并 基于 动作 输出 a (t) 调整 左右 脚 的 俯仰 轴 躁 关节 、 仿 


仰 


膝 关 贡 以 及 俯仰 轴 通 关节 的 关节 旋转 角度 ,到 达 新 的 状态 s (t+1) ,计算 对 动作 输出 a 


⑪ 的 奖惩 (bb ,并 获得 此 次 状态 改变 的 经 验 数据 : ts (t) ,a(⑪) ,s(t+1) ,r (t)}; 


(3) 根据 经 验 数据 计算 TD 误差 ; 

(4) 响应 于 TD 误差 ,分 别 对 Actor 神 经 网 络 和 Critic 神 经 网 络 的 参数 进行 更 新 。 
3. 如 权利 要 求 1 所 述 的 仿 人 机 器 人 步行 控制 方法 ,其 特征 在 于 : 
计算 对 动作 输出 a (t) 的 奖惩 (t) : 


-10, On,<-S0r0 .>.3 

(= uh (3.32) 
10, 其 他 

或 者 
=10, の < る or の > 3 

( り = (333) 

-好 Osi 》 其 他 

其 中 ,6 , ,为 俯仰 轴 方 辐 上 机 器 人 的 倾角 ,n 为 回报 值 放 大 系数 。 


pitch 
4. 如 权利 要 求 2 所 述 的 仿 人 机 器 人 步行 控制 方法 ,其 特征 在 于 :计算 TD 误差 6: 

6=rtV(s (t+1) ,0) -V (s (t) ,6 ) (3.24) 

其 中 ,9 表示 Critic 网 络 的 参数 ,V () 表示 值 函数 。 

5. 如 权利 要 求 2 所 述 的 仿 人 机 器 人 步行 控制 方法 ,其 特征 在 于 : 

对 Critic 网 络 进 行 更 新 : 

9 三 0 +qf6VV(s(⑪ ,0) (3.25) 

其 中 ,9. 表 示 Critic 网 络 的 参数 , 5 为 TD ,误差 a" 为 Critic 神 经 网 络 的 更 新 步 长 ,更 新 方 


向 为 使 损失 函数 最 小 的 方向 ; 


损失 函数 L (9 ) 为: 

L(0)= (rtV(s (t+1) ,0 ) -V(s ⑪) NO (3.26) 
对 Actor 网 络 进行 更 新 : 

9 =0 +a°6Vlnn(als(t) ,0,) (3.27) 


其 中 ,9, 表 示 Actor 网 络 参数 ,a 为 Actor 网 络 的 更 新 步 长 ,n (a|s,90,) 表示 Actor 网 络 所 


代表 的 策略 ,其 中 a 为 Actor 网 络 的 动作 输出 。 


6. 如 权利 要 求 2 所 述 的 仿 人 机 器 人 步行 控制 方法 ,其 特征 在 于 : 


通过 ZMP 稳 定性 理论 确定 步 态 子 周期 内 ZMP 移 动 轨 迹 : 一 个 步行 子 周期 中 的 ZMP 运 动 轨 
迹 用 如 下 公式 表示 : 
291 
ア (1)= ーー 
(リュ ーーー*ー9 
.4 | 一 
みこ ag 0 ミィ < ニニ (3.12) 
5 1 一 の 2 
Z 。()=0 
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X(t)=0 
ne (3.13) 
ひび 2 2 
Zp (1)=0 
27 一 どー] 
X,,,(t)=s+ 让 
ーー1 
人 = ol) Tw (3.14) 
o—l 2 
Z,,,(t) =0 


其 中 ,X (GO,Y (tt) ,2 (t) 分 别 为 ZMP 在 世界 坐标 系 中 的 坐标 ;s 是 X 方 向 上 足 底 稳 定 
区 域 长 度 的 一 半 , 用 来 调节 步行 过 程 中 ZMP 的 可 移动 范围 ;o 表 示 一 个 步行 子 周 期 中 DSP 占 据 
整体 时 长 的 比例 ;q 是 一 个 不 定 变量 ; 

躁 关节 与 髋 关节 轨迹 规划 的 方法 如 下 : 

(1) 踊 关节 轨迹 规划 

设 X(t) 、Y (t) 以 及 Z (t) 分 别 为 中 关节 在 Xx 方向、Y 方 向 以 及 7 方向 上 的 运动 轨迹 ,X”(t) 、 
Y(t) 以 及 Z(t) 表示 关节 运动 速度 ,对 躁 关 节 设 置 约束 条 件 如 下 : 


(3.15) 


(3.16) 


其 中 ,L,,,, 表 示 右 脚 向 前 迈步 距离 ,H,,, 是 距 关 节能 到 达 最 高 高 度 ,T, 和 7T, 是 躁 关 节 在 一 
个 步行 周期 中 躁 关节 处 于 最 高 抬 脚 高 度 的 始 来 时 间 ,用 来 调节 躁 关节 维持 最 高 高 度 的 持续 
时 间 ; 

根据 式 (3.15) 及 式 (3.16) 的 约束 条 件 ,推导 出 用 三 次 插值 函数 表示 的 躁 关 贡 的 轨迹 : 

PR RR (1 


step step 
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3H, tft 2H, 8 
Z(1)=——-— ,0<t<7, 
0 4 
Z( り = 万 77 <t<T, (3.18) 
3 万 だ 2 万 
Z(t)=H,,,- ー 2 ャ ーー さこ ts ] 
(1-7,) (1-%) 
Y(t) =0,0<t<1 (3.19) 
当 目 标 环 境 是 非 平坦 路 面 ,可 能 存在 障碍 物 时 ,根据 预期 的 障碍 物 高 度 对 L.,。 和 H.,。 进 


行 设置 ; 
(2) 通关 节 轨 迹 规划 
横 深 轴 髋 关节 的 轨迹 : 
as (7 了 OZt<t, 


t の 


@。( り = の ty さ 7 く ん (3.20) 
Qs (の 过 d+ ご 2 + ンプ 3 
(1- ヵ ) 1- ヵ ) 
其 中 ,tr 和 也 表示 双 足 支撑 阶段 和 单 足 文 撑 阶 段 的 两 个 时 间 分 隔 点 ,d。; 是 ai (tb 的 最大 
旋转 角 ; 
通过 关节 的 运动 学 关系 获取 下 上 肢 关节 的 轨迹 的 方法 如 下 : 
将 航向 轴 的 两 个 骨 关 节 角 设 为 恒定 的 0" ,由 各 关节 角 的 运动 学 关系 ,机 器 人 下 胶 的 横 
深 轴 关节 和 俯仰 轴 关 节 分 别 有 如 下 关系 : 


02 十 Q4 = 


| 


の | +Qs=0 
Qs=0) +7 (3.22) 
の , tO 三 び の 。 一 万 / 2 


wji+wo=0 


连 杆 模型 的 十 个 自由 度 上 的 关节 旋转 角 定义 为 ci 一 ai， 
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关节 旋转 角 关节 
a 信仰 轴 左 躁 关节 
の 。 横 滚 轴 左 中 关节 
0 俯仰 轴 左 膝 关 节 
@。 備 仰 箇 左 骸 革 
a 模 深 轴 左 髋 关节 
@。 模 滚 轴 右 艇 关节 
or 俯仰 轴 右 散 关节 
a 俯仰 轴 右 膝 关节 
@。 横 滚 轴 右 躁 关节 
a 俯仰 轴 右 踩 关 节 


对 关节 旋转 角 a,,a,,a;,a6 使 用 三 次 样 条 法 进行 描述 的 方法 是 : 

构建 目标 函数 : 

aa 3.23) 

其 中 ,J 是 行走 过 程 中 的 ZMP 轨 迹 误 差 ,J 为 采样 时 刻 踩 关节 跟随 既定 轨迹 的 累加 误 
差 ,J) ,is 限制 关节 旋转 角度 不 超出 电机 限制 。 

7. 如 权利 要 求 6 所 述 的 仿 人 机 器 人 步行 控制 方法 ,其 特征 在 于 : 

上 上 肢 关 节 轨 迹 获 取 方法 如 下 : 

采用 直接 规划 法 确定 机 器 人 上 半 吴 关节 在 步行 过 程 中 的 运行 轨迹 ,关节 包括 : 颈 部 的 
两 个 关节 左右 肩 部 共 四 个 关节 左右 肘 部 共 两 个 关节 ,将 颈 部 、 头 部 关节 设置 为 恒定 的 角 
度 0° ;左右 肩 部 的 两 个 横 滚 轴 关 节 分 别 设置 为 15 和 -15 ;左右 肘 部 两 个 关节 分 别 设置 为 
20 ”和 -20° ,通过 下 式 描 述 摆 辟 过 程 中 俯仰 轴 户 关节 的 运行 轨迹 ,俯仰 轴 肩 左 、 右 关节 旋转 
角 随时 间 变 化 的 关系 如 Si (t) 和 S(t) 所 示 : 

S(t) =20sin (zxt— zx/2) 

村人 = 20sin ( 娘 +/ 2 ) 


8. 如 权利 要 求 1 所 述 的 仿 人 机 器 人 步行 控制 方法 ,其 特征 在 于 : 

对 仿 人 机 器 人 进行 离线 步 态 规划 ,使 仿 人 机 器 人 跟踪 离线 生成 的 关节 运动 轨迹 具备 行 
走 能 

响应 于 离线 步 态 ,状态 编码 模块 根据 仿 人 机 器 人 传感器 采集 到 的 状态 信息 调整 PF 的 激 
活 状 态 , 下 橄榄 反馈 模块 基于 环境 反馈 的 评价 信息 修改 行为 选择 概率 以 及 小 脑 神经 元 存储 


(3.21) 。 
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权 值 ,运动 映射 模块 根据 小 脑 模 型 输出 调节 机 器 人 动作 。 
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技术 领域 
[0001] ”本 发 明 属于 仿 人 机 器 人 领域 ,涉及 一 种 仿 人 机 器 人 步行 控 人 


ーー 


背景 技术 

[0002] ”人形 机 器 人 是 一 种 骨 在 以 模仿 人 类 外 观 和 行为 的 机 器 人 ,不断 复 制 人 类 综合 能 力 
的 特点 使 其 能 够 符 代 人 类 去 完成 重复 性 、 高 危 性 、 劳 动力 密集 型 的 工作 ,因而 具有 广阔 的 应 
用 前 景 。 人 形 机 器 人 是 一 类 典型 的 多 关节 非 线 性 欠 驱 动 系统 ,因此 其 步 态 控制 是 一 个 非常 
具有 挑战 性 的 问题 ,也 是 人 行 机 器 人 获得 广泛 应 用 的 关键 ,研究 者 们 提出 了 多 种 运动 步 态 
控制 方法 ,目前 最 普遍 的 是 将 运动 任务 分 解 为 不 同 的 子 模块 进行 规划 和 控制 形成 离线 步 态 
模式 ,如 零点 矩 (ZMP) 理论 、 倒 立 摆 模型 遗传 算法 等 ,这 些 传统 的 离线 控制 和 规划 方法 主要 
针对 具体 的 运动 任务 进行 设计 ,如 平整 地 面 环境 下 稳定 行走 ,但 在 非 平稳 地 面条 件 下 , 人形 
机 器 人 的 步 态 规划 效果 仍 有 待 提高 ,因此 ,近年 来 离线 步 态 规划 结合 在 线 调 整 策 略 被 广泛 
应 用 。 然 而 ,目前 在 线 调 整 智能 控制 策略 仍然 主要 是 建立 在 精确 的 运动 控制 模型 的 基础 上 ， 
设计 的 控制 器 缺乏 通用 性 , 抗 干扰 能 力 弱 。 现 有 离线 步 态 规划 方法 ,并 未 将 路 面 环境 的 变化 
纳入 考量 ,只 能 够 机 械 地 跟踪 预先 规划 好 的 运动 模式 ,所 以 难以 适用 于 平坦 路 面 之 外 的 其 
他 环境 。 而 现实 世界 中 环境 复杂 多 变 ,理想 中 绝对 平整 的 路 面 环境 反而 不 多 见 。 要 使 仿 人 机 
器 人 能 够 取得 广泛 的 应 用 ,有 具备 在 复杂 环境 中 稳定 行走 的 能 力 尤为 重要 。 智 能 控制 方法 源 
自 对 生物 智能 的 研究 ,步行 其 实质 是 人 体 在 推进 中 从 失去 平衡 到 恢复 平衡 的 向 前 移动 的 过 
程 ,而 步 态 反映 出 人 体 对 重心 控制 的 能 力 ,是 人 体 平 衡 系 统 的 重要 过 程 ,小 脑 作为 人 体 控制 
运动 和 平衡 的 重要 器 官 , 在 步 态 控制 中 起 着 至 关 重 要 的 作用 。 多 年 来 包括 生物 学 、 神 经 生理 
学 以 及 控制 工程 学 等 领域 的 学 者 们 模拟 小 脑 神经 系统 的 结构 或 功能 特征 ,建立 了 小 脑 关 联 
室 制 器 (Cerebellar Model Articulation Controller,CMAC) 等 模型 ,应 用 于 人 形 机 器 人 
控制 中 。 这 些小 脑 模 型 通常 仅 以 控制 效果 为 目的 , 虽 借 鉴 了 小 脑 的 功能 模式 , 却 忽略 了 小 脑 
的 结构 特性 。 


发 明 内 容 

[0003] “为 了 解决 提高 仿 人 机 器 人 在 行走 过 程 中 的 稳定 与 平衡 能 力 的 问题 ,本 发 明 提 出 如 
下 技术 方案 :一 种 仿 人 机 器 人 步行 控制 方法 ,对 仿 人 机 器 人 进行 离线 步 态 规划 ,使 仿 人 机 器 
人 跟踪 离线 生成 的 关节 运动 轨迹 具备 行走 能 力 ;实时 采集 仿 人 机 器 人 行走 过 程 中 的 状态 信 
上 ,响应 于 状态 信息 的 稳定 控制 器 ,实时 在 线 调整 仿 人 机 器 人 的 步行 姿态 ,使 其 能 够 在 非 平 
整 路面 行 走 。 

[0004] ”进一步 的 ,对 仿 人 机 器 人 进行 离线 步 态 规划 的 步骤 如 下 :获取 仿 人 机 器 人 的 多 连 
杆 模型 ;通过 ZMP 稳 定性 理论 确定 步 态 子 周期 内 ZMP 移 动 轨迹 ;响应 于 多 连 杆 模型 和 ZMP 移 
动 轨 迹 , 进行 机 器 人 躁 关节 与 通关 节 轨 迹 规划 ; 啊 应 于 ZMP 移 动 轨迹 及 躁 关 节 、 艇 关节 轨迹 
规划 ,通过 关节 的 运动 学 关系 获取 下 肢 关节 的 轨迹 ; 归 因 于 为 提高 ZMP 稳 定 裕 度 、 减 小 躁 关 
节 轨 迹 跟 踩 误差 ,而 对 关节 旋转 角 使 用 三 次 样 条 法 进行 描述 ; 使 用 蚊 群 算法 对 下 胶 关 贡 的 


ィ 一 . 
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轨迹 优化 而 得 到 完整 离线 步 态 。 

L0005] ”进一步 的 , 仿 人 机 器 人 在 和 斜坡 路 面 行走 时 的 状态 信息 作为 稳定 控制 器 输入 ,稳定 
空 制 器 的 + 时 刻 输入 为 : 

[0006] s(t) ニーF⑪.,6 (0 0 s(t 0 tt 3.28) 

[0007] 其 中 ,904b ,0 ,(t) ,0 (① 分别 为 加 速 传感器 在 三 个 方向 上 采集 的 数值 信 
号 ,f(t) 是 与 仿 人 机 器 人 的 支撑 脚 有 关 的 变量 ,1 为 左 脚 ,-1 为 右 脚 ;在 t 时 刻 , 根 据 仿 人 机 器 
人 提供 的 状态 信息 得 到 对 应 的 动作 输出 : 


[0008] a(t)={AO”,AO”,AO”,AG”,AG”, AG” | (3.29) 
[0009] ”其 中 , A9”，A8”，A98” 分 别 为 右 脚 的 俯仰 轴 躁 关节 、 俯 仰 轴 膝 关节 以 及 俯仰 轴 
髋 关节 相 较 于 离线 步 态 的 关节 旋转 角度 调整 量 ; A9”，A98”，A9” 分 别 为 左 脚 的 俯仰 轴 躁 


关节 、 俯 仰 轴 膝 关节 以 及 俯仰 轴 髋 关节 相 较 于 离线 步 态 的 关节 旋转 角度 调整 量 ; 对 动作 a 
(t) 进行 处 理 : 


[0010] Qo sme(t)= Qe (I)+S(t) OZtE 


] 
一 (3.30 ) 

の 

[0011] 其 中 ,q (① 是 关节 实时 输出 角度 ,arii。(t) 是 离线 轨迹 的 关节 角度 ,0 是 用 
来 调节 关节 调整 持续 时 间 的 衰减 系数 ,S (t) 是 一 个 自然 边界 条 件 下 的 三 次 样 条 差 值 函数 ， 
以 下 约束 确定 : 


S(0)=Ab， 回避 


[0012] (3.31) 
ぐ '(0) -3 人 =0 
[の / 


L0013] ”其 中 , A 9 是 对 应 关节 的 调整 量 。 
L0014] ”进一步 的 ,稳定 控制 器 的 学 习 方法 如 下 : (1) 将 仿 人 机 器 人 的 当前 时 刻 的 状态 s (t) 
输入 Actor 神 经 网 络 和 Critic 神 经 网 络 ,Actor 神经 网 络 提 供 动 作 输 出 a (t) ; (2) 仿 人 机 器 
人 响应 于 离线 步 态 ,并 基于 动作 输出 a (t) 调整 左右 脚 的 俯仰 轴 躁 关节 、 俯 仰 轴 膝 关节 以 及 
俯仰 轴 髋 关节 的 关节 旋转 角度 ,到 达 新 的 状态 s (t+1) ,计算 对 动作 输出 a (t) 的 奖惩 Tb ,并 
获得 此 次 状态 改变 的 经 验 数 据 : {s(t) ,a (t) ,s (t+1) ,r (t)}; (3) 根据 经 验 数 据 计算 TD 误 
差 ; (4) 啊 应 于 TD 误差 ,分 别 对 Actor 神 经 网 络 和 Critic 神 经 网 络 的 参数 进行 更 新 。 

L0015] ”进一步 的 ,计算 对 动作 输出 a (t) 的 奖惩 了 (t) : 


LE 


ーー ーーS Or は SS 
[0016] 7( り = ne (3.32) 
10， 其他 


[0017] ”或 者 
=l0; OF 0 
( ME 一 时 | 其他 


[0019] ”其 中 ,uite 为 俯仰 轴 方 向 上 机 器 人 的 倾角 湄 为 回报 值 放 大 系数 。 
[0020] ”进一步 的 ,计算 人 D 误 差 6: 


[0018] (3.33) 
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[0021] 6=r+V(s (t+1),0)-V(s(t),0) (3.24) 

[0022] ”其 中 ,9 .表示 Critic 网 络 的 参数 ,V() 表示 值 函数 。 

[0023] ”进一步 的 ,对 Critic 网 络 进行 更 新 : 

[0024] 0 =0+a VV(s(t),0) (3.25) 

[0025] ”其 中 ,9 .表示 Critic 网 络 的 参数 ,8 为 TD ,误差 a 为 Critic 神 经 网 络 的 更 新 步 长 ,更 
新 方向 为 使 损失 函数 最 小 的 方向 ; 

[0026] ”损失 函数 L (8.) 为 : 

[0027] L(@ ) (で HV(s (G+1) ,9) -Vs(⑪ ,0))* (3.26) 

[0028] “对 Actor 网 络 进行 更 新 ; 

[0029] 9 =0 +a“6 Vlnn(als(t) ,0) (3.27) 

[0030] ”其 中 ,9 表示 Actor 网 络 参数 ,a 为 Actor 网 络 的 更 新 步 长 ,n (a|s ,90,) 表示 Actor 网 
络 所 代表 的 策略 ,其 中 a 为 Actor 网 络 的 动作 输出 。 

L0031] ”进一步 的 ,通过 7ZMP 稳 定性 理论 确定 步 态 子 周 期 内 ZMP 移 动 轨迹 :一 个 步行 子 周 期 
中 的 ZMP 运 动 轨迹 用 如 下 公式 表示 : 


ーー 


2gt 
イリ = ビーー*ー9 


7.47 1 一 C 
0032 Y (4 = 一 一 -3.7 ,0<1 < 一 一 (3.12) 
[ | mm ( ) 1- グ 


[0033] YY (7)= 


zmp 


Zn (1) 


ぅ >ーーー ミ 7 く 一 一 (313 


ll 
© 


[0034] (= ニャ + <7 く 1 (3.14) 


zmp 


の (4 过 0 


[0035] 。 其 中 ,X(t) ,Y(t) ;2 (t) 分 别 为 ZNP 在 世界 坐标 系 中 的 坐标 ;s 是 X 方 向 上 足 底 
稳定 区 域 长 度 的 一 半 , 用 来 调节 步行 过 程 中 ZMP 的 可 移动 范围 ;o 表 示 一 个 步行 子 周 期 中 DSP 
占据 整体 时 长 的 比例 ;q 是 一 个 不 定 变量 ; 
[0036] ” 踩 关 节 与 散 关 节 轨 迹 规 划 的 方法 如 下 : 

[0037] (1) 躁 关 节 轨 迹 规划 

[0038] 設 X(t) Y(t) 以 及 Z (t) 分 别 为 踩 关 节 在 X 方 向 \Y 方 向 以 及 7 方向 上 的 运动 轨迹 ,X/ 
(t) Y(t) 以 及 Z' (b) 表示 关节 运动 速度 ,对 躁 关节 设置 约束 条 件 如 下 : 
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X(0)=-L,, /2 
¥(1)=L,,/2 
[0039] = な (3.15) 
X'(0) = 0 
X'(1) =0 
Z(0) =0 
Z(T,) = Ho 
Z(77 =H 
Z(1) =0 
[0040] (3.16) 
グ '(0) =0 
Z'(7T,)=0 
Zz'(7)=0 
Z'(0) =0 
[0041] ”其 中 ,Ls。 表 示 右 脚 癌 前 迈步 距离 ,Ho 是 踩 关 节能 到 达 最 高 高 度 ,T. 和 Ti 是 踩 关 
节 在 一 个 步行 周期 中 中 关节 处 于 最 高 抬 脚 高 度 的 始末 时 间 ;用 来 调节 踪 关 节 维 持 最 高 高 度 
的 持续 时 间 ，; 
[0042] 根 据 式 (3.15) 及 式 (3.16) 的 约束 条 件 ,推导 出 用 三 次 插值 函数 表示 的 踩 关 节 的 轨 
迹 ; 
[0043] XO SAL DL LOSE 3.17) 
Z(t) = at Togt oc <7, 
多 yy 
[0044] 12(t)=H,,,T, S7 < 人 の (3.18) 
H.,, 2H // 
eo 
(1-7) Ga-7) 
[0045] Y(t) =0,0 ミ t ミ 1 (3.19) 
[0046] “” 当 目 标 环境 是 非 平 坦 路 面 , 可 能 存在 障碍 物 时 ,根据 预期 的 障碍 物 高 度 对 L.,。 和 
H,,。, 进 行 设置 ; 
L0047] (2) 髋 关节 轨迹 规划 
[0048] 横 深 轴 髋 关节 的 轨迹 : 
a OZt<t, 
te te - 
[0049] 1@。()=。 ty S7 く ん (3.20) 
@。() = の = る <t<1 
(1- ぁ ヵ ) (1- ぁ る ) 
[0050] ”其 中 ,ft 和 妃 表 示 双 足 支 撑 阶 段 和 单 足 支撑 阶段 的 两 个 时 间 分 隔 点 ,d.; 是 au (t) 的 
最 大 旋转 角 ; 
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[0051] ”通过 关节 的 运动 学 关系 获取 下 肢 关节 的 轨迹 的 方法 如 下 : 


[0052] “将 航向 轴 的 两 个 骨 关 布 角 设 为 恒定 的 0 ,由 各 关节 角 的 运动 学 关系 ,机 器 人 下 及 


的 横 滚 轴 关 节 和 俯仰 轴 关 节 分 别 有 如 下 关系 : 


C。 十 ニー の 。 


Qi 二 Cs=0 
[0053] Ci6 三 Qi 十 元 


の 。 十 0o =Qas 一 万 / 2 


の +a,,=0 
[0054] ” 连 杆 模型 的 十 个 自由 度 上 的 关节 旋转 角 定义 为 aj~a 
关节 旋转 角 关节 の 
a 俯仰 轴 左 踩 关节 し 2 
[0055] 模 深 轴 左 踩 关节 & 
の 信仰 轴 左 膝 关节 の 
@ 備 仰 納 左 航 革 に 2 
hn 


10 
横 滚 轴 左 艇 关节 
横 深 轴 右 艇 关节 
俯仰 轴 右 通关 节 
俯仰 轴 右 膝 关 节 
横 滚 轴 右 躁 关节 
俯仰 轴 右 躁 关节 


[0056] ”对 关节 旋转 角 4,,0,,a;,as 使 用 三 次 样 条 法 进行 描述 的 方法 是 : 


[0057] ”构建 目标 函数 : 

[MOON 

[0059] ”其 中 ,J 是 行走 过 程 中 的 ZMP 轨 迹 误 差 ,J 为 采样 时 去 
误差 ,J， ,限制 关节 旋转 角度 不 超出 电机 限制 。 


bound 


(3.23) 
1 躁 关节 跟随 既定 轨迹 的 累加 


[0060] ”进一步 的 ,上 上 肢 关 节 轨 迹 获 取 方 法 如 下 :采用 直接 规划 法 确定 机 器 人 上 半身 关 证 


在 步行 过 程 中 的 运行 轨迹 ,关节 包括 :有 贷 部 的 两 个 关节 、 左 右 肩 部 共 四 个 关节 、 左 右 肘 部 共 


两 个 关节 ,将 颈 部 、 头 部 关节 设置 为 恒定 的 角度 0” ;左右 肩 部 的 两 个 模 深 轴 关 节 分 别 设置 为 
15* 和 -15*; 左 右 肘 部 两 个 关节 分 别 设置 为 2 和 -20* ,通过 下 式 描述 摆 臂 过 程 中 俯仰 轴 户 
关节 的 运行 轨迹 ,俯仰 轴 肩 左 、 右 关节 旋转 角 随时 间 变 化 的 关系 如 S(t) 和 S(t) 所 示 : 


S(t)=20sin(At—x/2 
[0061] 0 
Sw (= 20sin (zt+ x/2) 


(3.21 ) 


[0062] ”一 种 仿 人 机 器 人 步行 控制 方法 ,对 仿 人 机 器 人 进行 离线 步 态 规划 ,使 仿 人 机 器 人 


跟踪 离线 生成 的 关节 运动 轨迹 具备 行走 能 力 ; 啊 应 于 离线 步 态 
器 人 传感器 采集 到 的 状态 信息 调整 PF 的 激活 状态 ,下 橄榄 反馈 


态 ,状态 编码 模块 根据 仿 人 机 


模块 基于 环境 反馈 的 评价 信 


恩 修 改行 为 选择 概率 以 及 小 脑 神经 元 存储 权 值 ,运动 映 财 模块 根据 小 脑 模型 输出 调节 机 器 


人 动作 。 


[0063] “有 益 效果 :本 发 明 将 采用 离线 步 态 规划 与 线 稳定 控 和 


上 相 结合 的 方式 实现 仿 人 机 器 


人 步行 控制 。 基 于 离线 步 态 规划 生成 的 步行 模式 , 仿 人 机 器 人 实现 在 水 平地 面 的 稳定 行走 ; 


在 线 稳定 控制 能 在 固定 的 步行 模式 上 通过 传感器 感知 环境 并 进行 实时 的 调整 ,使 仿 人 机 器 
人 具备 适应 复杂 环境 的 能 力 。 在 线 稳 定 控制 部 分 ,首先 ,本 发 明 使 用 强化 学 习 算法 构建 了 在 


线 稳定 控制 器 ,使 仿 人 机 器 人 能 通过 自主 学 习 在 行走 过 程 中 自 适应 的 调整 下 上 股 关 节 以 维持 
平衡 .强化 学 习 是 一 种 智能 控制 方法 ,来 源 于 对 人 类 学 习 行为 的 观察 与 研究 ,而 小 脑 是 维持 
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身体 平衡 以 及 协调 运动 的 中 枢 , 具有 强大 的 学 习 能 力 与 可 塑性 ,开发 类 小 脑 的 仿生 控制 模 
型 对 控制 科学 的 发 展 乃 至 病变 小 脑 的 模拟 有 着 重要 意义 。 我 们 本 着 基于 小 脑 机 理 来 构建 仿 
人 机 器 人 控制 方法 的 目的 ,进一步 深入 研究 了 小 脑 的 解剖 与 生理 学 结构 ,并 且 引 入 强化 学 
习 机 制 建 立 了 基于 小 脑 的 仿生 控制 模型 ,以 此 来 提高 仿 人 机 器 人 在 行走 过 程 中 的 稳定 与 平 
衡 能 力 。 


附 图 说 明 

[0064] ”图 1 基于 AC 算 法 的 步行 策略 框图 。 

[0065] ”图 2 机 器 人 关节 和 连 杆 示意 图 。 

[0066] ”图 3 简化 后 的 关节 连接 示意 图 。 

[0067] ”图 4 俯仰 轴 、 横 深 轴 以 及 航向 轴 定 义 示意 图 。 

[0068] ”图 5 仿 人 机 器 人 周期 步行 示意 图 (a) 侧 视 图 (b) 正视 图 。 

[0069] ”图 6 完整 周期 内 关节 角度 与 时 间 关 系 示意 图 (a) 左 腿 (b) 右 腿 。 

[0070] ”图 7BP 神 经 网 络 结构 示意 图 。 

[0071] ”图 8 在 线 调 整 时 腿 部 关节 的 调整 方向 示意 图 (a) 向 前 调整 (b) 向 后 调整 。 
[0072] ”图 9 强化 学 习 在 线 稳定 控制 器 学 习 流 程 示 意图 。 

[0073] ”图 10 小 脑 内 部 神经 元 连接 方式 示意 图 。 

[0074] ”图 11 小 脑 模 型 结构 框图 。 

[0075] ”图 12 小 脑 模型 输入 输出 结构 示意 图 。 

[0076] ”图 13CMAC 输 入 输出 过 程 示意 图 。 

[0077] ”图 14CMAC 的 映射 规则 示意 图 。 

[0078] ”图 15 小 脑 功能 模块 结构 和 信息 传输 路 径 示意 图 。 

[0079] ”图 16 基 于 小 脑 模型 的 仿 人 机 器 人 步行 在 线 稳定 控制 示意 图 。 

[0080] ”图 17 小 脑 模 型 在 线 稳定 控制 器 学 习 流程 示意 网 。 

[0081] ”图 18 Webots 机 器 人 仿真 软件 主 界面 。 

[0082] ”图 19 ROBOTIS-0P2 开 发 接口 示意 图 。 

[0083] ”图 20 机 器 人 联合 仿真 系统 示意 图 。 

[0084] ”图 21 稳 定性 训练 平台 示意 图 。 

[0085] ”图 22 稳 定性 训练 平台 的 节点 树 示意 图 。 

[0086] ”图 23 稳 定性 训练 平台 倾斜 角度 示意 图 。 

[0087] ”图 24Wings3D 三 维 建 模 软件 示意 网 。 

[0088] ”图 25 和 斜坡 环境 示意 图 。 

[0089] ”图 26 和 斜坡 环境 示意 图 。 

[0090] ”图 27 仿 人 机 器 人 行走 步 数 随 训练 回合 数 变 化 图 。 

[0091] ”图 28 仿 人 机 器 人 和 斜坡 行走 过 程 中 的 和 鸳 干 倾角 示意 图 。 

[0092] ”图 29 路 面 坡度 增加 时 仿 人 机 器 人 的 下 上 肢 关 节 和 角度 曲线 示意 图 (a) 左 腿 (b) 右 腿 。 
[0093] ”图 30 路 面 坡度 减少 时 仿 人 机 器 人 的 下 肢 关节 角度 曲线 示意 图 (a) 左 腿 (b) 右 腿 。 
[0094] ”图 31 仿 人 机 器 人 斜坡 行走 过 程 示意 图 (a) 无 强化 学 习 稳定 控制 (b) 有 强 化 学 习 稳 


マッ 晶 
人 宗 制 |。 
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[0095] “图 32 仿 人 机 器 人 行走 步 数 随 训练 回合 数 变化 图 (连续 型 立即 回报 函数 ) 。 

[0096] ”图 33 正 弦 输 入 下 的 平台 输出 示意 图 。 

[0097] ”图 34 平 台 运动 时 仿 人 机 器 人 加 速度 计 Y 轴 数值 示意 图 。 

[0098] ”图 35 基 于 小 脑 模型 的 仿 人 机 器 人 稳定 性 训练 示意 图 (a) 训练 前 (bp) 训练 后 。 

[0099] ”图 36 小 脑 模型 在 线 调整 时 各 基本 单元 输出 曲线 图 (训练 后 ) 。 

[0100] ”图 37 小 脑 模型 各 基本 单元 的 CF 状态 随 训练 次 数 的 变化 图 。 

[0101] ”图 38 仿 人 机 器 人 和 斜坡 环境 行走 过 程 示意 图 (a) 无 小 脑 模型 稳定 控制 (bp) 有 小 脑 模 
[0102] ”图 39 仿 人 机 器 人 斜坡 环境 中 行走 的 蝶 干 姿态 角 控 制 示意 图 。 

[0103] ”图 40 对 称 式 步 行 阶段 划分 的 ZMP 轨 迹 ( 左 脚 文 撑 ) 。 


具体 实施 方式 

[0104] ”本 实施 例 公 开 了 一 种 基于 Actor Critic 强 化 学 习 算 法 的 仿 人 机 器 人 在 线 步行 稳 
定 控制 方法 ,本 发 明基 于 离线 步 态 规划 结合 在 线 稳定 性 调整 的 步行 控制 策略 的 研究 思路 ， 
设计 步行 控制 策略 的 框架 结构 如 图 1 所 示 ,该 方法 主要 包括 两 个 步骤 :1. 基 于 ZMP 理 论 和 三 
次 样 条 插值 法 生成 离线 步 态 , 即 仿 人 机 器 人 的 离线 步 态 规划 ,使 仿 人 机 器 人 通过 跟踪 离线 
生成 的 关节 运动 轨迹 ,具备 了 基本 的 行走 能 力 .2. 基于 AC 强 化 学 习 算法 设计 在 线 稳 定 控制 
器 ,该 控制 器 在 机 器 人 行走 过 程 中 能 够 实时 采集 机 器 人 的 状态 信息 ,调整 机 器 人 的 步行 姿 
态 ,使 其 能 够 在 非 平整 路 面条 件 下 稳定 行走 。 下 述 对 该 两 个 步 又 进行 详细 说 明 : 

[0105] 1. 仿 人 机 器 人 的 离线 步 态 规划 ,该 方法 包括 S1 .建立 仿 人 机 器 人 的 运动 学 模型 、 
S2. 步 态 周期 划分 与 确定 ZMP 轨 迹 、S3. 躁 关节 与 髋 关节 轨迹 规划 、S4. 生 成 仿 人 机 器 人 离线 
步 态 。 本 实施 例 将 对 各 个 具体 步骤 作出 详细 说 明 。 

[0106] 。S1 .建立 仿 人 机 器 人 的 运动 学 模型 :本 发 明 使 用 ROBOTIS-0P2 仿 人 机 器 人 (以 下 简 
称 为 0P2) 作为 研究 平台 .为 了 生成 其 离线 步 态 规划 ,首先 需要 建立 以 OP2 的 身体 尺寸 及 关节 
布局 为 参照 的 运动 学 模型 。 建 立 0P2 的 运动 学 模型 使 用 DH 方 法 .0P2 的 关节 和 连 杆 布局 如 图 2 
所 示 (图 2 中 圆 点 表示 关节 ,直线 表示 连 杆 ) .将 0P2 简 化 为 连 杆 -关节 的 串联 结构 ,各 连 杆 详 
细 尺 寸 以 及 身体 各 部 位 质量 如 表 3.1 和 表 3.2 所 示 。 


表 3.1 机 器 人 的 连 杆 尺寸 表 3.2 机 器 人 各 部 位 重量 
序号 部 位 长 度 Ccm) 描述 部 位 。 质量 Gg) 
1 头 部 6.9 头 部 关节 和 颈 部 关节 之 间 头 部 158.042 
2 颈 部 5.05 颈 部 关节 到 左右 肩 关 节 连 线 的 垂直 距离 颈 部 24.358 
3 肩 部 11.5 左右 肩 关 节 之 间距 离 肩 部 25.913 

4 躯干 9.22 左右 肩 关 节 连 线 到 左右 艇 关节 连 线 的 垂直 距离 躯干 975.6 
[0107] 5 小 臂 12.9 无 大 辟 168.377 
6 大 臂 0 元 小 臂 69.289 
艇 部 7.4 左右 艇 关节 之 间距 离 骸 部 167.11 
8 蔷 部 3 航向 轴 髓 关节 到 横 深 轴 髋 关节 之 间距 离 大 腿 119.043 
9 大 腿 9.3 无 小 腿 70.31 
10 小 腿 9.3 无 脚 蝶 167.108 
11 脚趾 3.35 趴 关节 到 脚底 的 距离 脚掌 79.446 


[0108] ”考虑 到 运动 学 模型 中 包含 的 连 杆 总 量 越 多 ,所 带 来 的 计算 量 也 越 大 ,因此 需 对 0P2 
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机 器 人 的 连 杆 结 构 做 了 一 定 的 简化 处 理 .0P2 机 器 人 具有 2 个 重要 的 结构 特点 ; (1) 胸腔 内 
集成 了 主要 的 大 重量 部 件 , 如 微型 计算 机 、 电 池 等 。 (2) 手臂 未 端 无 执行 机 构 , 质量 较 轻 , 且 
行走 时 摆动 幅度 小 。 另 外 考虑 到 仿 人 机 器 人 的 行走 主要 依靠 腿 部 运动 ,所 以 在 建立 连 杆 模 
型 时 ,可 以 忽略 掉 行 走 过 程 中 摆 臂 所 带 来 的 影响 ,将 其 上 身 视 为 一 个 整体 ,认为 其 重心 位 置 
位 于 髋 关节 正 上 方 .简化 后 的 连 杆 模型 如 图 3 所 示 , 以 左 脚 脚掌 上 的 俯仰 轴 踢 关节 为 原点 建 
立 世界 坐标 系 ,该 多 连 杆 模型 具有 12 个 自由 度 和 9 个 连 杆 ,图 3 中 的 L, 和 WM 分 别 表示 各 连 杆 的 
长 度 和 质量 ,简化 模型 的 参数 在 表 3.3 中 列 出 ,其 中 ,简化 后 的 上 体 视 为 固定 在 髋 部 连 杆 L， 
上 的 刚体 ,其 连 杆 长 度 为 L,, 质 量 为 M,。 

[0109] ” 表 3.3 简 化 模型 参数 


连 杆 ん 、 ん ん 、 ん ん 、 ん L.、 L, A Bs 
[01 10] 长 度 (cm) 3.35 9.30 9.30 3.00 7.40 10.00 
质量 (g) 163.001 153.864 119.043 119.043 167.11 1421.58 
[0111] “为 了 方便 对 连 杆 模型 的 各 个 关节 进行 描述 和 区 分 ,将 各 关节 按 其 旋转 方向 分 为 俯 
仰 轴 关 节 、 横 滚 轴 关 节 以 及 航向 轴 关 节 ,三 个 轴 同 的 定义 如 图 4 所 示 。 虽 然 该 连 杆 模型 共 十 


二 个 自由 度 , 但 是 因为 只 考虑 机 器 人 的 前 向 行走 ,所 以 航 癌 轴 骨 关节 上 的 两 个 自由 度 在 步 
行 过 程 中 不 发 生 改 变 , 即 简化 后 的 机 器 人 连 杆 模型 实际 上 只 考虑 剩余 的 十 个 自由 度 。 将 这 
十 个 自由 度 上 的 关节 旋转 角 定 义 为 ai 一 ai 它们 各 自 对 应 的 关节 如 表 3.4 所 示 。 


表 3.4 关节 旋转 角 与 各 关节 对 应 关系 @ の 。 横 滚 轴 左 通关 节 

关节 旋转 角 关节 に 2 横 滚 轴 右 通关 节 

[0112] 1 俯仰 轴 左 躁 关 节 に 2 众 仰 轴 右 通关 节 
横 滚 轴 左 踩 关 节 に 俯仰 轴 右 膝 关 节 

の 俯仰 轴 左 膝 关 节 の 横 滚 轴 右 踩 关 节 

の 俯仰 轴 左 髋 关节 Gin 俯仰 轴 右 踩 关节 


[0113] ”S52. 步 态 周期 划分 与 ZMP 轨 迹 :本 发 明 采 用 对 称 式 的 划分 方式 。 该 方式 的 优点 在 于 
只 需 对 一 个 子 周 期 内 的 关节 轨迹 进行 规划 , 男 一 个 子 周期 的 关 市 轨迹 与 其 呈 左 右 脚 对 称 的 
关系 ,这 给 规划 仿 人 机 器 人 的 离线 步 态 带 来 了 方便 ,后 续 离 线 步 态 规划 内 容 均 以 左 肢 支撑 
子 周 期 为 例 进行 说 明 , 且 该 子 周 期 的 时 长 统一 规定 为 1 个 单位 时 间 。ZMP 的 位 置 是 仿 人 机 器 
人 运动 过 程 中 能 和 否 保持 稳定 性 的 关键 。 所 以 ,首先 规划 仿 人 机 器 人 步行 过 程 中 ZMP 点 的 移动 
轨迹 ,基于 图 40 所 示 的 ZMP 轨 迹 , 可 以 将 一 个 步行 子 周 期 中 的 ZMP 运 动 轨迹 用 如 下 公式 表示 : 


6 ] 一 
[0114] 7 ( り =ーー-3.7 "0S1<— (3.12) 
2.,,, (1)=0 
X.,,(!)=0 
s(27 -1) 1- ど ]+ 
[0115] 1 (1) 二 = a < (3.13 ) 
Z.,,(t)=0 
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27 一 ー]1 
X(t)=s+ 
ーー 
[0116] | 一 aa (3.14) 
Z。( り =0 


[0117] 其 中 ,Xj 《中 Yj,《t) ョ () 分别 为 MP 在 世界 坐标 系 中 的 坐标 ;s 是 X 方 向 上 足 底 
稳定 区 域 长 度 的 一 半 , 用 来 调节 步行 过 程 中 ZMP 的 可 移动 范围 ;o 表 示 一 个 步行 子 周 期 中 DSP 
占据 整体 时 长 的 比例 ;a 是 一 个 不 定 变 量 ,由 摆动 腿 的 跨 步 的 长 度 确定 。 
[0118] ”S3 . 躁 关节 与 骨 关 节 轨 迹 规 划 : 

[0119] (1) 踩 关 节 轨 迹 规 划 : 在 步行 子 周期 的 单 脚 支撑 阶段 , 左 脚 与 地 面 接触 , 视 为 其 回 
定 于 地 面 。 该 阶段 中 右 脚 始终 悬空 , 右 脚 躁 关 节 的 运行 轨迹 十 分 重要 。 一 方面 ,因为 直接 与 
脚掌 相连 ,所 以 躁 关节 的 运动 轨迹 直接 决定 了 脚掌 的 运动 轨迹 ,对 于 跨越 可 能 存在 的 障碍 
物 起 决定 作用 。 另 一 方面 , 右 脚 脚 掌 离 开 地 面 后 机 器 人 进入 单 足 支撑 阶段 ,这 个 过 程 要 尽量 
保持 平稳 和 顺畅 , 离 地 和 触 地 的 加 速度 和 速度 都 不 宜 过 大 .此 外 , 躁 部 的 关节 有 两 个 自由 
度 ,但 两 个 自由 度 之 间 并 无 连 杆 结构 ,所 以 可 以 认为 两 个 自由 度 重合 。 

[0120] ”基于 以 上 考虑 ,对 躁 关 节 设 置 约束 条 件 如 下 : 


[0121] っ (3.15) 


[0122] (3.16 ) 


[0123] 其 中 ,L。，。 表 示 右 脚 向 前 迈步 距离 ,H ,是 躁 关 节能 到 达 最 高 高 度 ,T. 和 T, 用 来 调 
节 中 关节 维持 最 高 高 度 的 持续 时 间 。 根 据 式 (3.15) 及 式 (3.16) 的 约束 条 件 ,可 以 推导 出 用 
三 次 插值 函数 表示 的 躁 关节 的 轨迹 : 

[0124] X(t)=-0.5L, +3L tt -2L 1,0 ミ tl1 (3.17) 


step step step 
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3H, 
ly 人 
[0125] 1? 用 ( り = 万 7 S7 く 人 7 (3.18) 


Hr 2H,F 

Z(t = 万 -一 至 二 + 一 至 二 ,也 < 

(1-%) (1-%) 
[0126] Y(t)=0,0<t<1 (319) 
[0127】 当 目 标 环境 是 非 平 坦 路 面 , 可 能 存在 障碍 物 时 ,可 以 根据 预期 的 障碍 物 高 度 对 
Lew 和 H。 进 行 设置 .本 发 明 中 暂时 不 考虑 地 面 存 在 障碍 物 的 情况 。 
[0128] (2) 艇 关节 轨迹 规划 : 接 下 来 对 髋 关节 的 轨迹 进行 规划 。 艇 关节 有 三 个 自由 度 , 因 
为 只 考虑 仿 人 机 器 人 的 前 向 行走 ,所 以 不 使 用 航向 轴 角 关 节 。 图 5 展示 了 一 个 子 周 期 内 机 可 
人 前 问 行 走时 的 正视 和 侧 视 ,一 个 子 周 期 中 , 横 深 轴 艇 关节 在 侧 向 平面 内 的 运动 比较 单一 ， 
可 以 通过 直接 确定 儿 个 关键 位 置 获得 其 运动 轨迹 。 首 先 , 双 足 支撑 阶段 ZMP 点 回 左 脚 转移 ， 
髋 关 布 同时 做 前 疝 与 侧 向 运动 ,随后 的 单 足 支 撑 阶 段 横 深 轴 髋 关节 维持 不 变 ,ZMP 点 从 左 肢 
脚底 板 后 侧 移动 到 前 侧 , 最 后 恢复 到 身体 正直 的 双 足 支撑 阶段 , 横 深 轴 髋 关节 复原 .使 用 三 
次 样 条 插值 函数 对 其 运动 轨迹 进行 拟 合 , 即 可 得 到 横 深 轴 角 关 节 的 轨迹 : 


€ 


2 3 
ol ZH a 
2 3 


Z(t)= ,0<t<T, 


3 の 20. 
as(!) = 二 全 -一 宇 ，0<1<1 
I | 
[0129] 1@。()= の > ty S7 く ん (3.20) 
ー3 の . 2 . 
Qs (1t)=4d,+ =ー キ ーー テー。 lt, <t<]1 


” (1-4) (1-4) 
[0130] ”其 中 ,tr 和 ti 表示 双 足 支撑 阶段 和 单 足 支撑 阶段 的 两 个 时 间 分 隔 点 ,d,; 是 ai (t) 的 
最 大 旋转 角 。 

[0131] ”S4. 生 成 仿 人 机 器 人 离线 步 态 

[0132] (1) 上 上 肢 关 节 轨 迹 ; 在 建立 运动 学 模型 时 ,为 了 简化 机 器 人 连 杆 模型 以 及 后 续 计算 
的 方便 ,机 器 人 的 上 身 被 视 为 恒定 的 刚体 .可 以 采用 直接 规划 法 确定 机 器 人 上 半身 关节 在 
步行 过 程 中 的 运行 轨迹 ,这 些 关 节 包 括 : 贷 部 的 两 个 关节 、 左 右 肩 部 共 四 个 关节 、 左 右 肘 部 
共 两 个 关节 。 将 颈 部 、 头 部 关节 设置 为 恒定 的 角度 0” ;左右 肩 部 的 两 个 横 深 轴 关 节 分 别 设置 
为 15”" 和 -15° ;同样 的 , 肘 部 关节 也 分 别 设置 为 20" 和 -20"”。 俯 仰 轴 肩 关节 的 轨迹 规划 比较 特 
殊 ,观察 人 类 的 行为 活动 可 以 发 现 ,无 论 是 行走 还 是 跑步 过 程 中 ,手臂 的 摆动 总 是 不 可 或 缺 
的 辅助 动作 。 所 以 推广 到 仿 人 机 器 人 的 步 态 规划 ,在 行走 过 程 中 前 后 交错 的 摆 臂 动作 有 助 
于 维持 机 器 人 行走 过 程 中 的 稳定 性 ,而 且 也 更 为 美观 .如 式 (3.21) 所 示 , 引入 正弦 函数 来 描 
述 摆 臂 过 程 中 俯仰 轴 肩 关节 的 运行 轨迹 ,其 左 、 右 关节 旋转 角 随 时 间 变 化 的 关系 如 S、，; (t) 
和 S(t) 所 示 。 


[0133] 人 
(?) = 20sin (7 +7z/2) 


[0134] (2 下 及 关节 轨迹 规划 :对 于 下 肢 的 十 二 个 关节 ,因为 不 需要 考虑 转向 问题 ,所 以 


(3.21) 
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首先 将 航向 轴 的 两 个 髋 关节 角 设 为 恒定 的 0" 。 此 外 ,为 了 行走 过 程 中 机 器 人 姿态 的 自然 和 
稳定 ,对 剩余 的 十 个 关节 进一步 添加 约束 项 。 由 各 关节 角 的 运动 学 关系 ,机 器 人 下 上肢 的 横 滚 
轴 关 节 和 俯仰 轴 关 节 分 别 有 如 下 关系 : 


の 。 十 。 ニー の 。 


a,+a;=0 
[0135] C= + (3.22) 

の 。 +0 三 Ca 一 外 /之 

a@,+a,,=0 
[0136] ”在 确定 了 ZMP 轨 迹 规划 以 及 踩 、 髋 关节 轨迹 规划 之 后 ,要 进一步 获得 完整 步 态 规 
划 , 可 以 通过 各 个 关节 角 之 间 的 数学 关系 ,结合 额外 的 约束 条 件 如 利用 倒立 摆 模型 获得 的 
质心 轨迹 等 ,获得 下 胶 各 个 关节 旋转 角度 的 变化 曲线 ,得 到 完整 的 机 器 人 行走 步 态 . 不 过 此 
类 方法 在 生成 关节 运行 轨迹 时 做 了 较 多 的 限定 ,所 以 生成 的 步 态 不 一 定 是 最 优 步 态 。 而 各 
类 优化 算法 如 遗传 算法 、 粒 子 群 算法 、 进 化 算法 以 及 蚁 群 算法 等 能 够 在 一 定 的 限制 条 件 下 
进行 寻 优 ,获得 最 优 的 步 态 规划 .连续 域 蚁 群 算法 来 源 于 经 典 蚁 群 算 法 ,是 一 种 可 以 在 连续 
空间 中 进行 寻 优 的 优化 算法 , 蚁 群 算法 的 灵感 源 于 对 自然 界 中 蚂蚁 疯 食 行为 的 观察 ,蚂蚁 
们 通过 在 经 过 的 路 径 中 散布 信息 素 , 来 帮助 整个 蚁 群 找到 最 佳 的 食物 来 源 . 蚁 群 算法 依靠 
其 分 布 计 算 、 局 发 式 搜索 以 及 全 局 优化 等 特点 ,在 各 领域 取得 了 广泛 的 应 用 。 本 发 明 使 用 连 
续 域 蚁 群 算法 进行 下 肢 关 节 轨 迹 的 优化 ,上 文中 对 ZMP 轨 迹 以 及 躁 、 髋 关节 的 预 规划 为 机 器 
人 的 离线 步 态 提 供 了 参考 ,结合 式 (3.22) 中 对 各 关节 的 关节 旋转 角 之 间 关 系 的 限制 ,对 余 
下 的 下 肢 关 节 轨 迹 a, ,a,,a,,a, 使 用 三 次 样 条 法 进行 描述 ,以 较 高 的 ZMP 稳 定 裕 度 和 较 小 的 
踩 关 节 轨 迹 跟踪 误差 为 优化 目标 构建 目标 函数 : 
0137] JJ 3.23) 
[0138] ”其 中 ,J, 是 行走 过 程 中 的 ZMP 轨 迹 误差 ,J, 为 采样 时 刻 踩 关节 跟随 既定 轨迹 的 累加 
误差 ,J 限制 关节 旋转 角度 不 超出 电机 限制 设置 s==1.25,0=0.6,q==0.05,L,.。,=5， 
Hw, 二 12,t, 二 0.3,t, 二 0.7,d, 二 0.2, 使 用 蚁 群 算法 对 下 上 肢 关 节 的 轨迹 进行 优化 得 到 完整 
步 态 如 图 6 所 示 。 观 察 图 6 中 关节 运动 曲线 可 以 看 到 ,生成 的 关节 旋转 轨迹 平滑 变化 , 且 无 阶 
跃 和 较 短 时 间 内 的 突变 ,这 能 保证 仿 人 机 器 人 行走 过 程 中 的 稳定 ,电机 跟踪 轨迹 运转 也 不 
会 出 现 困难 。 
[0139] ”2. 基 于 强化 学 习 算 法 设计 在 线 步 行 稳定 控制 器 : 
[0140] ”在 上 述 具 体 实施 例 方式 中 ,结合 ZMP 理 论 和 三 次 样 条 插值 法 生成 了 仿 人 机 器 人 0P2 
的 离线 步 态 , 所 生成 的 离线 步 态 通过 控制 各 个 关节 能 机 跟踪 确定 的 轨迹 ,可 使 仿 人 机 器 人 
在 水 平 路 面 上 平稳 行走 。 但 是 ,仅仅 是 水 平 路 面 的 稳定 行走 能 力 是 不 够 的 ,实际 应 用 中 ,机 
器 人 所 面 对 的 环境 要 更 为 复杂 。 要 使 仿 人 机 器 人 在 复杂 的 路 面 环境 中 保持 稳定 的 运动 状 
态 ,在 没有 人 类 干预 的 情况 下 ,只 能 依靠 机 器 人 自身 的 实时 调节 能 力 ,通过 自身 状态 信息 以 
及 环境 反馈 来 调整 机 器 人 执行 器 的 输出 ,以 应 对 环境 中 的 扰动 .因此 ,本 发 明 提出 了 一 种 基 
于 Actor Critic 算 法 的 在 线 稳定 性 控制 方法 ,该 方法 以 现实 世界 中 常见 的 斜坡 环境 为 目标 
环境 ,致力 于 解决 仿 人 机 器 人 在 坡度 连续 变化 的 斜坡 环境 中 难以 稳定 行走 的 问题 。 
[0141] “为 了 能 够 便于 理解 ,对 本 步骤 中 使 用 的 基础 算法 进行 说 明 :基于 BP 神 经 网 络 的 AC 
算法 :AC 算 法 使 用 两 个 神经 网 络 结构 来 对 策略 和 值 函数 进行 拟 合 ,这 使 其 可 以 直接 接收 连 
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续 状 态 输入 ,在 未 曾 引 入 神经 网 络 之 前 ,强化 学 习 算 法 通常 采用 离散 的 形式 将 动作 与 状态 
对 应 的 值 函数 用 一 张 表格 存储 起 来 ,并 把 这 张 表格 作为 Agent 行 动 的 依据 。 但 是 ,当面 对 的 
状态 与 动作 数量 过 大 时 ,算法 的 收敛 会 变 得 十 分 困难 。 神 经 网 络 的 引入 ,在 一 定 程度 上 解决 
了 这 个 问题 .借助 神 经 网 络 可 以 接收 多 维 连续 输入 的 特点 ,强化 学 习 的 性 能 与 适用 范围 得 
到 了 进一步 的 提升 ,神经 网 络 的 种 类 很 多 ,其 中 误差 反 癌 传播 (back propagation,BP) 神经 
网 络 因 性 能 成 熟 .结构 灵活 以 及 非 线 性 映射 能 力 强 等 特点 取得 了 广泛 的 应 用 。.BP 神 经 网 络 
的 结构 如 图 7 所 示 。BP 神 经 网 络 分 别 有 输 入 层 、 隐 藏 层 以 及 输出 层 三 层 , 其 中 隐藏 层 的 层 数 
和 结构 没有 限制 ,可 以 灵活 安排 。 作 为 一 种 前 馈 神 经 网 络 ,BP 神 经 网 络 学 习 过 程 是 根据 反馈 
调整 权 值 的 过 程 , 目 的 是 尽量 贴近 所 拟 合 的 输入 输出 关系 , 即 输出 值 与 期 望 值 之 间 的 误差 
尽量 小 。 

[0142] ”本 发 明 在 设计 强化 学 习 在 线 稳定 控制 器 时 ,Actor 网 络 和 Critic 网 络 都 采用 BP 神 
经 网 络 ,t 时 刻 , 控 制 器 获得 包含 机 器 人 实时 信息 的 状态 s ,Actor 网 络 基 于 s 输 出 动作 a, 机 器 
人 执行 动作 a 调整 自身 姿态 并 在 t+1 时 刻 到 达 状 态 s ,同时 获得 立即 回报 值 r 。 此 时 ,对 于 
Critic 网 络 , 有 误差 6: 

[0143] 6=r+V(s’,0)-V(s,0) (3 24) 

[0144] ”其 中 ,9 表示 Critic 网 络 的 参数 。 基 于 误差 6, 使 用 梯度 下 降 法 对 Critic 网 络 进行 
更新 , 有 : 

[0145] 9 =0 +q'6VVs,6) (3.25) 

[0146] ”其 中 ,为 Critic 网 络 的 更 新 步 长 .更 新 方向 为 使 损失 函数 最 小 的 方向 ,损失 函数 
L (9 ) 用 均 方 误差 表示 : 


[0147] L(8.)==X (r+y (5,8,)-V (5,8.)} (3.26) 
n 


[0148] ”用 9 表示 Actor 网 络 参 数 , 则 Actor 网 络 的 更 新 方式 为 : 

[0149] 9 =0 +as8Vlnrlals,9) 3.27) 

[0150] ”其 中 ,a 为 Actor 网 络 的 更 新 步 长 ,7 (a|s,9,) 表示 Actor 网 络 所 代表 的 策略 。 

[0151] ” 随 着 机 器 人 的 行走 ,其 所 处 的 环境 在 不 断 发 生 改变 ,上 述 过 程 也 随 之 不 断 重 复 。 可 
以 看 出 ,AC 算 法 的 学 习 过 程 遵循 强化 学 习 算 法 的 一 般 过 程 ,每 一 次 执行 动作 后 ,Actor 和 
Critic 分 别 进行 一 次 更 新 .而 学 习 结束 ,强化 学 习 获 得 最 佳 策 略 之 后 ,Actor 便 可 作为 挖 于 
器 的 主体 ,单独 执行 控制 任务 。 强 化 学 习 关 键 要 素 的 设 定 :在 离线 步 态 规划 的 基础 上 ,设计 
了 基于 AC 算 法 的 在 线 稳定 控制 器 。 针 对 坡度 连续 变化 的 斜坡 环境 ,控制 器 将 学 会 维持 仿 人 
机 器 人 稳定 行走 的 最 佳 行动 策略 ,具体 来 说 , 仿 人 机 器 人 在 跟踪 离线 步 态 轨迹 行走 的 过 程 
中 ,通过 自身 搭载 的 传感器 感知 外 界 环境 的 变化 ,并 且 以 传感器 信息 为 依据 对 步行 姿态 进 
行 调整 ,最 终 学 会 应 对 斜坡 环境 的 行动 策略 ,实现 了 该 环境 下 的 稳定 行走 .强化 学 习 各 关键 
要 素 的 设 定 如 下 。 

[0152] (1) 状态 空间 :状态 s 是 强化 学 习 算 法 的 输入 信息 ,是 Agent 获 知 自身 在 环境 中 所 处 
卉 况 的 唯一 途径 。 与 人 类 通过 眼 、 耳 ` 口 ` 鼻 以 及 胶体 等 来 感知 外 界 一 样 ,机 器 人 也 通过 自身 
搭载 的 各 类 传感器 来 探查 外 界 。 理 想 的 情况 是 传感器 足够 多 ,因为 这 意味 机 器 人 对 外 界 环 
境 以 及 自身 状况 了 解 才 足 够 全 面 , 但 是 过 高 维 数 的 状态 信息 会 导致 搜索 空间 急剧 增 大 而 造 
成 收敛 的 困难 。 因 为 机 器 人 结构 复杂 且 自 由 度 高 ,所 以 其 在 运动 过 程 中 具有 的 高 维 状态 输 
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入 和 高 维 动作 输出 的 特点 。 在 设计 应 用 于 机 器 人 的 强化 学 习 控 制 算法 时 ,为 了 提高 训练 效 
率 , 常 常 对 可 用 的 状态 信息 进行 取舍 ,只 选取 那些 主要 的 信息 。 本 发 明 所 用 的 机 器 人 有 陀螺 
仪 和 加 速度 计 两 个 传感器 ,斜坡 路 面 行 走时 ,机 器 人 状态 变化 并 不 剧烈 ,陀螺 仪 传感器 对 其 
状态 描述 作用 不 大 。 所 以 通过 加 速度 计 采 集 其 状态 信息 作为 输入 ,强化 学 习 在 线 稳定 控制 
器 的 t 时 刻 输入 为 : 

[0153] sG⑥⑪ EC w(t og ade 3.28) 

[0154] 其 中 ,0。。 、(① ,0 。。 , (b) ,0。。, (t) 分 别 为 加 速 传感器 在 三 个 方向 上 采集 的 数值 信 
号 。f Mt) 是 与 文 撑 脚 有 关 的 变量 ,可 以 直接 从 离线 步 态 规划 中 获取 ,1 为 左 脚 , -1 为 右 脚 。 
[0155] (2) 动作 空间 : 仿 人 机 器 人 行走 过 程 中 遭遇 到 路 面 的 坡度 变化 时 ,整个 身体 的 角度 
也 随 之 倾斜 ,这 会 导致 其 质心 和 2ZMP 偏 离 出 稳定 文 撑 区 域 , 特 别 是 在 单 足 支 撑 阶 段 , 相 比较 
于 双 脚 落地 时 ,该 阶段 的 支撑 区 域 收缩 到 了 单个 脚掌 之 内 ,稳定 范围 进一步 缩小 ,再 加 上 实 
际 行 走 过 程 中 各 个 舵 机 跟踪 关节 轨迹 曲线 的 误差 ， Oi 最 为 脆弱 的 ,为 
了 简化 运算 的 过 程 ,在 对 机 器 人 进行 步行 阶段 划分 时 ,将 一 个 完整 的 步行 周期 划分 为 了 两 
个 相互 对 称 的 子 周期 ,一 个 子 周期 中 既 包 含有 单 足 文 撑 阶 段 ， 所 以 
采用 的 方式 是 将 一 个 子 周 期 视 为 一 个 整体 来 考虑 ,路 面 倾斜 导致 机 器 人 前 倾 或 后 仰 , 质 心 
和 ZMP 同 身体 前 侧 或 后 侧 偏 移 , 要 将 其 调整 回 稳定 区 域 ,在 不 考虑 机 器 人 上 半身 关节 的 情况 
下 ,采用 对 腿 部 俯仰 轴 关 节 做 整体 调整 的 方式 ,设计 了 动作 空间 ,如 图 7 所 示 , 以 左 腿 在 前 、 
右 腿 在 后 为 例 定性 的 展示 了 一 个 动作 中 各 关节 的 调整 过 程 ,图 8 的 (a) 展示 的 是 质心 和 ZMP 
前 向 调整 时 仿 人 机 器 人 腿 部 各 关节 的 旋转 方向 ,虚线 箭头 是 左 侧 俯仰 轴 通 关节 的 旋转 方 
向 。 同 理 , 图 8 的 ⑪) 展示 的 是 质心 和 ZMP 后 向 调整 时 的 关节 旋转 反 向 。 将 Actor 的 动作 输出 设 
计 为 这 六 个 关节 离线 角度 的 调整 量 ,在 时 刻 t, 强 化 学 习 根 据 机 器 人 提供 的 状态 信息 得 到 对 
应 的 动作 : 

[0156] g()=1A の "、A の '、A の 7、A の 7、A の ".A の "| 329) 


[0157] 其 中 ,A の ", A の ", AA の". Ab , Ab，Ab7 分 别 为 左右 脚 的 俯仰 轴 踩 关节 、 俯 爷 
I 膝 关 节 以 及 俯仰 轴 髋 关节 的 关节 旋转 角度 在 离线 角度 基础 上 的 调整 量 。 同 时 ,为 了 避免 
调整 量 直接 作用 于 各 个 关节 可 能 导致 的 瞬时 加 速度 过 大 ,也 为 了 使 仿 人 机 器 人 的 步行 过 程 
更 加 自然 ,基于 衰减 系数 6 ,使 用 三 次 样 条 法 对 动作 a (t) 进行 处 理 : 
[0158] Qo (=e。( り +S( の ) 0</< っ (330) 
[0159] ”其 中 ,a ,w(t) 是 关节 实时 输出 角度 ,ass (⑩ 是 离线 轨迹 的 关节 角度 ,S (t) 
是 一 个 上 自然 边界 条 件 下 的 三 次 样 条 差 值 函数 ,由 以 下 约束 确定 : 


s(0)=A0, s(3)-0 


[0160] (3.31) 


Et 


[0161] ”其 中 , A 6 是 对 应 关节 的 调整 量 。 
L0162] (3) 立即 回报 函数 :对 于 特定 的 任务 来 说 ,立即 回报 值 的 设 定 直 接 决 定 了 学 习 效 果 
的 好 坏 ,Agent 选 择 动作 的 倾向 ,一 定 是 朝 着 回报 值 累 积 量 最 高 的 方向 ,所 以 立即 回 报 值 函 
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数 要 尽量 与 任务 目标 直接 相关 。 在 设计 立即 回报 值 函 数 时 ,考虑 到 机 器 人 和 斜坡 行走 时 保持 
稳定 性 这 一 需求 ,不 仅仅 要 求 机 器 人 能 在 坡 面 稳 定 行走 ,同时 还 要 做 到 行走 过 程 中 前 后 倾 
斜 的 幅度 尽 可 能 小 。 所 以 将 机 器 人 躯干 倾角 的 阀 值 设 定 为 5 ,超过 该 冰 值 时 即 判 定 机 器 人 
处 于 不 稳定 状态 ,有 控 倒 的 风险 .基于 上 述 要 求 , 本 发 明 设计 了 两 种 立即 回报 函数 ,分 别 如 
式 (3.32) 和 式 3.33) 所 示 , 后 续 的 实验 中 将 对 两 种 立即 回报 函数 进行 比较 。 两 种 立即 回报 
函数 的 相同 点 是 进入 不 稳定 状态 都 会 给 予 -10 的 惩罚 值 ,不 同 之 处 是 当 保持 在 稳定 范围 之 
内 时 ,获得 的 奖励 值 不 一 样 。 


一 10， 队 < -9 Or GO io > っ 
[0163] r(7) = Ln 时 Ba 
10, 其他 
—10, の て 一 or の > 3 
01641 - _ (3.33) 
( ) ー ガ | 其 他 


[0165] ”其 中 ,9.404 为 信仰 轴 方 向 上 机 占 人 的 倾角 ,n 为 回报 值 放大 系数 。 

[0166] ”本 实施 例 的 强化 学 习 在 线 稳定 控制 器 的 学 习 流 程 如 图 9 所 示 : (1) 初始 化 折扣 
子 、 学 习 因 子 等 超 参 数 ,并 对 Actor 和 Critic 两 个 神经 网 络 进行 初始 化 ,其 中 权 值 采用 随机 
初始 化 , 偏 置 项 采用 常 值 初始 化 ; (2) 将 当前 时 刻 的 状态 s (t) 输入 Actor 网 络 和 Critic 网 
络 ,Actor 网 络 提 供 动 作 输 出 a (t) ; (3) 在 离线 步 态 的 基础 上 , 仿 人 机 器 人 基于 动作 a (①) 调整 
下 上肢 的 六 个 关节 ,到 达 新 的 状态 s (t+1) ,并 且 根 据 式 (3.32) 或 (3.33) 得 到 对 动作 a (t) 的 奖 
惩 Y (t) ,此 时 ,机 器 人 获得 此 次 行动 的 经 验 : ts(⑪ ,a (t) ,s (t+1) ,r (t)}; (4) 根据 新 的 经 验 
数据 ,基于 式 (3.24) 计算 TD 误差 ; (5) 分 别 对 Actor 网 络 和 Critic 网 络 的 参数 进行 更 新 ; (6) 
判断 本 轮 学 习 过 程 是 否 完结 ,否则 跳 回 (2) 。 
[0167] ”本 发 明 以 齐 次 坐标 变换 和 DH 方 法 为 基础 介绍 了 仿 人 机 器 人 的 简化 连 杆 模型 ,并 对 
仿 人 机 器 人 步 态 周 期 的 划分 方式 进行 了 阐述 ,划分 周期 后 结合 ZMP 稳 定性 理论 确定 了 子 周 
期 内 ZMP 的 移动 轨迹 ,对 于 简化 后 的 上 半身 各 个 关节 的 运动 轨迹 采用 直接 规划 的 方法 ,下 半 
身 关 节 的 轨迹 规划 , 则 是 在 连 杆 模型 以 及 ZMP 轨 迹 的 基础 上 进一步 确定 了 躁 关节 以 及 髋 关 
节 轨 迹 之 后 ,通过 连续 域 蚁 群 算法 获得 .上 半身 和 下 半身 关节 轨迹 共同 构成 了 完整 的 离线 
步 态 规划 。 之 后 ,设计 以 强化 学 习 在 线 稳定 控制 器 为 核心 的 仿 人 机 器 人 步行 控制 策略 该 步 
行 控制 策略 采用 离线 步 态 规划 结合 在 线 姿态 调整 的 方式 ,针对 机 器 人 面 对 坡 度 连续 变化 的 
路 面 环境 难以 保持 稳定 行走 的 问题 ,使 用 强化 学 习 AC 算 法 建立 了 在 线 稳 定 控制 器 。 该 控 人 
器 的 控制 效果 将 在 后 续 实验 说 明 中 进行 仿真 实验 验证 。 
[0168] ”在 一 种 实施 例 中 ,提出 一 种 基于 强化 学 习 小 脑 模型 的 的 仿 人 机 器 人 在 线 步 行 稳定 
控制 方法 ,使 用 了 相同 的 离线 步 态 规划 方法 ,与 上 述 实施 例 的 区 别 在 于 ,在 设计 在 线 稳定 控 
制 器 时 ,上 述 实 施 例 是 基于 AC 强 化 学 习 算 法 设计 在 线 稳定 控制 器 ,本 实施 例 是 基于 强化 学 
习 小 脑 模 型 的 在 线 步行 稳定 控制 器 。 当 然 ,基于 Actor Critic 算 法 实现 连续 状态 输入 下 的 
在 线 稳定 控制 ,之 后 ,利用 控制 学 方法 进一步 建立 基于 小 脑 机 理 和 强化 学 习 的 机 器 人 仿生 
空 制 模 型 ,两 种 控制 方法 的 结合 ,能 够 进一步 提高 稳定 性 和 环境 适应 能 力 。 

[0169] 为 了 便于 理解 ,对 基础 算法 中 基于 强化 学 习 理 论 建 模 的 小 脑 模 型 进行 说 明 : 小 脑 
的 解剖 学 和 生理 学 概述 :人 脑 由 大 脑 、 小 脑 、 间 脑 和 脑 干 组 成 ,是 人 体 最 神秘 、 最 复杂 也 最 不 
可 或 缺 的 器 官 ,其 中 大 脑 占据 脑 部 总 体积 的 五 分 之 四 以 上 ,但 就 神经 元 数量 而 言 ,大脑 皮 层 
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却 只 拥有 不 到 五 分 之 一 。 小 脑 虽然 体积 较 小 ,只 有 大 脑 八 分 之 一 左右 ,但 所 含 神经 元 数量 却 
是 大 脑 的 4 倍 。 随 着 对 小 脑 的 研究 越 来 越 深 入 ,人 们 发 现 小 脑 不 仅 掌 控 着 人 体 的 运动 和 协调 
控制 能 力 , 在 情感 认 知 、 语 言 处 理 、 工 作 记忆 等 方面 也 发 挥 着 重要 作用 .研究 小 脑 内 部 神经 
电信 号 传导 路 径 , 对 深入 理解 小 脑 运作 机 制 从 而 建立 小 脑 模型 有 重要 意义 。 图 10 展 示 了 小 
脑 内 部 主要 神经 元 及 其 联结 方式 。 输 入 信息 进入 小 脑 的 途径 主要 有 两 种 ,分 别 是 两 种 轴 突 : 
攀缘 纤维 (Climbing Fibers,CF) 和 苦 丛 纤维 (Mossy Fibers ,MF) 。MF 将 本 体感 受信 息 通过 
末端 突 触 传递 到 颗粒 细胞 (Granule Cell,GO 的 树 突 ,刺激 6GC 激 发 小 脑 皮 层 内 部 的 其 他 细 
胞 .GC 把 编码 后 的 信息 经 由 平行 纤维 (Parallel Fibers,PF) 输出 到 小 脑 其 他 部 分 ,对 包括 
高 尔 基 细胞 (Golgi Cell,Go0) 、 浦 肯 时 细胞 (Purkinje Ce11, PO 、 篮 细胞 (Basket Cell, 
BC) 和 星 型 细胞 (Stellate Cel1,SC) 等 产生 激活 效果 。CF 可 以 与 多 个 PC 同时 连接 ,并 通过 两 
者 之 间 的 兴奋 性 突 触 传输 强烈 的 刺激 。 研 究 表明 ,发 展 成 熟 的 小 脑 中 ,每 个 PC 都 只 接受 单一 
CF 的 支配 ,同时 ,CF 活性 越 强 , 则 相应 的 浦 肯 野 细胞 也 就 越 具 活 力 。 值 得 注意 的 是 ,小 脑 的 兴 
奋 性 与 小 脑 的 学 习 能 力 有 关 。.PF 和 PC 之 间 形 成 的 突 触 具 有 长 时 抑制 (long tern 
potentiation,LTP) 的 可 塑性 ,一 般 认为 ,这 种 突 触 的 可 塑性 在 运动 能 力 的 习 得 中 具有 显著 
作用 。 最 新 研究 发 现 ,基于 奖惩 信号 和 期 望 信号 CF 在 小 脑 相 关 区 域 会 产生 作用 ,奖励 信号 存 
在 时 会 刺激 一 部 分 区 域 并 抑制 其 他 区 域 , 而 奖励 信号 的 缺失 则 会 刺激 上 述 被 抑制 的 区 域 。 
在 小 脑 各 类 型 神经 元 中 ,PC 是 唯一 的 输出 神经 元 .PC 的 轴 突 会 离开 小 脑 皮层 ,其 他 类 型 的 神 
经 元 只 在 小 脑 皮 层 内 相互 联结 。PC 综 合 处 理 所 有 获得 的 信息 后 ,将 输出 信息 投射 至 深层 小 
脑 核 ,再 传递 到 大 脑 的 其 他 区 域 ,控制 身体 的 动作 。 

[0170] “小 脑 模型 结构 :本 发 明 所 使 用 的 小 脑 运动 控制 模型 着 眼 于 小 脑 在 运动 控制 方面 的 
能 力 ,一 方面 结合 相关 控制 理论 并 基于 模块 化 的 方式 实现 其 功能 , 另 一 方面 注重 对 小 脑 生 
理 与 解剖 结构 的 表达 。 图 11 是 该 小 脑 模型 的 整体 结构 图 。 在 仿 人 机 器 人 跟踪 离线 关节 轨迹 
行走 的 过 程 中 ,小 脑 模型 根据 神经 元 存储 权 值 计算 小 脑 输 出 指令 ,结合 命令 映射 向 量 ,修改 
关节 运动 参数 ,驱动 机 器 人 调整 步行 姿态 以 维持 稳定 .同时 ,小 脑 模型 根据 获得 的 评价 性 反 
馈 进行 权 值 修改 ,寻找 最 优 的 运动 模式 ,因为 小 脑 的 细胞 结构 均匀 ,各 区 域 的 神经 元 细胞 种 
类 和 联结 方式 基本 相似 ,所 以 在 设计 时 小 脑 模 型 的 主体 采用 了 n 个 基本 单元 组 成 的 阵列 结 
构 , 其 输入 输出 结构 如 图 12 所 示 , 其 中 每 个 基本 单元 都 具有 相同 的 内 部 结构 与 信息 传输 方 
Bs 

[0171] “小 脑 模型 功能 :基本 单元 的 内 部 结构 主要 可 分 为 四 个 模块 。 其 中 ,状态 编码 器 模块 
解决 机 器 人 状态 信息 输入 到 相关 区 域 的 映射 问题 ;小 脑 功能 模块 的 设计 主要 参照 真实 小 脑 
的 神经 元 联结 方式 ,模拟 神经 电信 号 在 小 脑 中 的 传导 过 程 ,该 模块 中 的 突 触 记忆 信息 在 机 
器 人 行走 过 程 中 不 断 得 到 修正 ,从 而 更 好 的 实现 控制 功能 ;下 橄榄 模块 基于 对 小 脑 学 习 过 
程 中 采用 强化 学 习 机 制 的 猜想 ,将 TD 算法 引入 下 橄榄 反馈 过 程 ;运动 映射 模块 实现 了 基本 
单元 输出 到 动作 命令 的 映射 ,增强 小 脑 模型 对 不 同 受 控 对 象 以 及 不 同 任务 的 适应 性 .下 面 
对 各 模块 进行 简要 的 介绍 。 

[0172] (状态 编码 模块 :状态 编码 模块 接收 仿 人 机 器 人 的 状态 信号 ,将 其 投射 为 小 脑 功 
能 模块 中 PF 状态 。 这 一 部 分 的 实现 借鉴 了 CMAC 小 脑 模 型 .CMAC 算 法 的 提出 也 受到 小 脑 内 部 
结构 及 其 功能 的 启发 ,从 小 脑 理论 的 角度 来 说 ,MF 接 收 小 脑 外 部 输入 的 本 体感 受信 息 ,传递 
给 GC 进行 信息 的 编码 ,这 一 过 程 在 CMAC 中 体现 为 输入 向 量 到 相关 区 域 的 投射 , 泛 化 参数 C 的 
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引入 ,很 好 的 体现 了 GC 和 MF 的 联结 关系 , 即 一 条 MF 会 与 多 个 6C 形 成 突 触 联系 ,CMAC 是 基于 
权 值 存储 的 神经 网 络 ,不同 于 深度 学 习 中 由 带 权 神 经 元 相互 之 间 通 过 复杂 连接 而 构成 的 网 
络 结构 ,CMAC 的 权 值 通过 “ 查 表 ” 来 获得 .CMAC 的 输入 输出 过 程 如 图 13 所 示 , 图 13 中 ,AC 为 概 
念 存储 器 ,AP 为 实际 存储 器 ,过程 分 为 两 个 阶段 :第 一 阶段 ,输入 信息 在 各 维度 上 都 能 找到 
唯一 与 之 对 应 的 一 组 逻辑 分 区 ,每 个 逻辑 分 区 都 能 在 实际 存储 器 找到 这 些 分 区 对 应 的 权 
值 ;第 二 阶段 ,通过 加 权 求 和 的 方式 累加 第 一 阶段 找到 的 权 值 , 即 得 到 CMAC 网 络 的 输出 。 举 
个 具体 的 例子 来 进行 说 明 : 如 图 14 所 示 ,将 输入 设 定 为 二 维 空间 , 横 轴 和 纵 轴 分 别 表 示 一 个 
维度 ,xj 和 yi 表示 各 自 维度 的 输入 信和 号。 每 一 维 的 输入 都 有 层 和 块 的 概念 ,根据 具体 的 输入 
数值 可 以 在 一 层 找到 对 应 的 块 , 即 逻 辑 分 区 。 比 如 ,每 一 层 都 有 x 与 相对 应 的 逻辑 分 块 , 每 
个 分 块 都 有 相应 的 离散 编码 与 之 对 应 , 即 b、e、g。 同 理 , 与 y/ 相 对 应 的 则 为 B.D、G ,根据 同 层 
对 应 的 原则 ,此 时 对 应 的 权 值 区 域 索引 为 Bb、De、Gg。 之 后 ,根据 逻辑 分 区 到 相关 区 域 的 映射 
规则 ,可 以 找到 小 脑 功能 模块 中 对 应 的 相关 区 域 .这 些 区 域 被 激活 设置 为 “1”, 其 余 区 域 相 
对 应 设置 为 “0”。 

[0173] (2②) 小 脑 功 能 模块 :小 脑 功能 模块 遵循 小 脑 的 神经 联结 结构 与 电信 号 传导 过 程 ,如 
15 所 示 。PF 传 递 仿 人 机 器 人 连续 状态 信息 的 编码 信号 ,输入 信号 经 由 状态 编码 模块 被 投 
射 到 相关 区 域 ,BC 和 SC 在 此 过 程 中 被 激发 处 于 兴奋 状态 ,表示 BC 和 SC 状态 信息 的 参数 s 和 bi 
设置 为 “1”。ox 与 史 表 示 BC、SC 与 PC 之 间 联 结 而 形成 的 突 触 ,由 于 BC 与 SC 对 PC 起 到 抑制 的 
作用 ,所 以 其 权 值 也 赋予 相应 的 负 值 .PC 的 膜 电位 值 Pi (t) 计算 如 下 : 


[0174] と (= PP( り - の (0+ の s+ の か Ca) 
j=l 


ーー 


[0175】 “其 中 ,Pi (t) 表示 t 时 刻 PC 的 膜 电位 值 ,Pi(t) 具有 二 值 性 ,分 别 使 用 "0” 和 “1 表示 
“抑制 "和 “激活 ”两 种 状态 © ii (t) 是 PF-PC 可 塑性 突 触 中 存储 的 权 值 ,代表 了 突 触 状态 对 
PC 膜 电 位 的 影响 ,其 中 ,i (i=1,2,...， NWN 表示 第 1 个 PP5j(j 守 126353 M 表示 第 j 个 PC。PF; 
(も 表示 t 时 刻 第 i 个 PF 的 激活 状态 ,由 状态 编码 模块 的 输出 决定 ,第 j 个 PC 的 状态 S;(t) 的 状 
态 值 由 式 (4.2) 确定 ,其 中 ,g 为 PC 的 阐 值 电位 。 
0 P(N)>Y 

[0176] sO- p( り <2 (42) 

[0177] 0(①) = [o) (t) ,0, (t) , .… o」 (t) ... ,ol (tj 是 表示 基本 单元 激活 状态 的 状态 向 
量 ,L 是 本 模块 中 基本 单元 的 总 数 ,由 小 脑 模 型 的 动作 空间 决定 ,动作 空间 是 小 脑 模型 输出 
基础 动作 的 组 合 。01 (tb) 是 第 1 个 基本 单元 的 状态 ,由 下 列 公式 确定 : 


KO 


[0178] go( り =| 1-| 之 


(4.3) 


[0179] ”其 中 ,4 是 修正 因子 ,PR-PC 突 触 的 兴奋 性 对 PC 膜 电 位 值 的 影响 随时 间 变 化 , o ;; 人) 
在 每 一 t 时 刻 都 在 不 断 调整 , 随 着 兴奋 性 的 衰减 ,其 变化 趋势 A o ;  (b) 为 ; 
[0180] A © i;(t) KEI2P (t) ]PF, (t) (4.4) 
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[0181] ”其 中 ,kK 为 权 值 调 整 系数 ,在 tt1 时 刻 权 值 变化 : 

[0182] @. (tt) = 0 (V+Ao,, (4.5) 

L0183] (3) 下 橄榄 反馈 模块 :对 真实 小 脑 的 合理 解读 应 该 是 在 已 被 证 实 的 小 脑 回 路 的 基 
础 上 ,恰当 地 解释 小 脑 各 个 结构 的 功能 和 信息 传递 过 程 。 在 动物 运动 过 程 中 ,PC 接受 MF 传 入 
有 关 运 动 的 上 下 文 信息 。 同 时 ,CF 同样 传递 运动 信息 流 , 因 为 小 脑 平行 纤维 PF 与 浦 肯 野 细胞 
PC 之 间 形 成 的 突 触 具 有 可 塑性 ,CF 传递 的 信息 被 视 为 PF-PC 突 触 功能 改变 的 依据 ,CF 起 源 于 
下 橄榄 核 , 与 大 脑 皮 层 构成 的 信息 通路 被 视 为 小 脑 的 反馈 回路 ,该 回路 被 认为 是 小 脑 学 习 
能 力 的 根源 。 依 据 对 小 脑 学 习 过 程 是 采用 强化 学 习 方式 的 猜想 ,在 下 橄榄 反馈 模块 中 引入 
了 无 模型 强化 学 习 算法 一 一 TD 算法 。 将 小 脑 模型 视 为 Agent ,状态 空间 由 PC 的 状态 构成 , 动 
作 空 间 由 基本 单元 的 输出 决定 将 小 脑 模型 PC 状态 -基本 单元 输出 映射 到 强化 学 习 状 态 - 动 
作对 ,环境 模型 对 小 脑 模型 来 说 是 未 知 的 ,通过 “ 试 错 "来 学 习 是 其 取得 展 好 表现 的 唯一 方 
式 。 学 习 过 程 中 ,强化 学 习 主导 动作 的 选择 ,根据 外 部 反馈 的 评价 信息 ,调整 动作 选择 概率 ， 
同时 各 基本 单元 中 的 权 值 也 得 到 相应 的 调整 .在 时 刻 t, 通过 传感器 获取 机 器 人 所 处 的 状态 
su,TD 算 法 基于 行为 选择 概率 选择 并 执行 al, 得 到 下 一 状态 sy 和 立即 回报 值 r,,, 利 用 式 
(2.11) 更 新 状态 值 函数 ,其 中 r,,; 是 机 器 人 此 时 与 上 一 时 刻 稳 定 状态 的 比较 ,离开 稳定 状态 
时 则 为 “1”, 趋 近 稳 定 状态 时 则 为 “0” ,小 脑 的 建 模 过 程 是 相关 突 触 的 塑造 过 程 ,CF 传递 信 
恩 的 过 程 采 用 了 强化 学 习 的 机 制 , 试 错过 程 的 行为 选择 概率 r, (a) 在 不 断 调整 ,同时 相关 突 
触 在 此 过 程 中 得 到 改变 。 获 得 一 次 学 习 经 验 后 ,下 橄榄 模块 利用 式 (4.6) 计算 TD 误差 5 ,并 
基于 式 (4.7) 和 式 (4.8) 修改 7 (a) 。 

[0184] 8 =r +yVGS)-VG) (4.6) 

[0185] ”pl (s,,a,) 三 p。(su,a)+06。 (4.7) 


a ta 


7,(a) = Pr{a, =a} = 
[0186] = Pe = = か 0 (4.8) 
Fe 
b=l 


L0187] ”其 中 ,p (sa 为 时 刻 {t 状 态 s, 时 选择 行为 a, 的 倾向 ,初始 时 各 行为 被 选择 的 概率 
相同 ,了 为 步 长 参数 ,根据 5. ,得 到 CF 反馈 的 评价 性 信息 : 

[0188] c(t)=g(6,) (4.9) 

[0189] ”其 中 ， 


CE j= 
ア 】 三 (4.10 ) 
8 0 x<0 


[0191] ”基于 ci (t) ,调整 对 应 的 PF 权 值 : 

Be mm “ld 

[0193] ”其 中 ,0 为 正 的 常数 。 

[0194] (4) 运动 映射 APG) 模块 :该 模块 将 小 脑 功能 模块 中 的 基本 单元 的 输出 映射 到 被 控 
对 象 执行 相关 控制 命令 ,Houk 的 研究 表明 ,记录 在 红 核 大 细胞 中 的 运动 信号 ,是 由 中 央 运 动 
模式 发 生 器 产生 的 ,而 不 是 周边 持续 的 反馈 引起 ,因而 认为 小 脑 是 一 个 可 调 模 式 发 生 器 。 为 
此 ,在 小 脑 模型 中 引入 了 APG 方 法 ,每 一 个 APG 可 以 生成 一 个 运动 指令 , 与 基本 单元 输出 一 一 
对 应 .在 小 脑 模型 动态 运行 过 程 中 ,每 一 t 时 刻 产生 相应 动作 的 计算 方式 如 下 : 

[0195] A(t)=D°* 0(t) (4.12) 
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[0196] ”其 中 ,D 是 运动 指令 的 集合 向 量 ,也 被 称 为 命令 映射 向 量 ,A(t) 是 t 时 刻 小 脑 模型 最 
终 的 输出 指令 。 
[0197] ”以 上 四 部 分 构成 了 完整 的 小 脑 模型 ,其 具有 以 下 优点 : (1) 在 兼顾 控制 效果 的 同 
时 ,注重 了 对 小 脑 本 身 生理 特性 和 结构 特点 的 表达 。 建 立 基于 小 脑 皮层 特性 的 感觉 运动 控 
制 系统 ,对 机 器 人 学 以 及 控制 科学 的 发 展 有 一 定 的 研究 价值 与 意义 。(2) 利用 了 CMAC 的 优 
点 ,对 输入 信息 会 进行 一 定 的 局 部 泛 化 ,相近 的 输入 产生 相近 的 输出 .同时 其 “表格 查询 ”的 
中 间 处 理 过 程 ,提高 了 小 脑 模型 响应 的 快速 性 。(3) APG 模 块 的 引入 ,采用 了 类 似 强化 学 习 中 
自由 设计 动作 空间 的 方式 ,使 得 该 小 脑 模型 能 应 用 于 不 同 的 受 控 主 体 和 不 同 的 任务 ,具备 
了 良好 的 通用 性 。 

[0198] ”本 发 明 的 基于 强化 学 习 小 脑 模型 的 在 线 步 行 稳定 控制 器 具体 设计 方法 如 下 ;基于 
小 脑 模型 的 仿 人 机 器 人 步行 控制 系统 如 图 16 所 示 。 离 线 步 态 规划 生成 机 器 人 的 基础 步 态 ， 
状态 编码 模块 根据 机 器 人 传感器 采集 到 的 状态 信息 调整 PF 的 激活 状态 ,下 橄 槛 反馈 模块 基 
于 环境 反馈 的 评价 信息 修改 行为 选择 概率 以 及 小 脑 神经 元 存储 权 值 ,运动 映射 模块 根据 小 
脑 模型 输出 调节 机 器 人 动作 。 真 实 小 脑 在 工作 的 时 候 ,接收 来 自 大 脑 和 少 髓 的 外 界 信息 输 
入 ,并 根据 这 些 信息 实时 的 调控 人 体 的 运动 ,小 脑 的 运动 调节 能 力 是 在 人 体 与 环境 进行 交 
互 过 程 中 “后 天 ” 习 得 的 。 基 于 离线 步 态 规划 ,机 器 人 能 够 跟踪 预先 规划 的 关节 轨迹 在 平坦 
路 面 上 行进 ,但 无 法 在 复杂 路 面 稳定 行走 ,倾斜 的 路 面 是 真实 环境 中 的 常见 场景 ,在 应 对 路 
面 坡度 的 变化 时 ,机 器 人 可 以 通过 对 腿 部 关节 进行 细微 的 调控 ,来 维持 自身 的 稳定 。0P2 机 
器 人 胸腔 内 的 副 控 电路 上 集成 了 加 速度 计 和 陀螺 仪 ,采集 到 的 信号 可 以 提供 当前 机 器 人 次 
态 稳定 性 的 信息 。 使 用 躯干 姿态 角 作 为 小 脑 模型 输入 来 对 机 器 人 进行 稳定 控制 ,状态 编码 
器 基于 传感器 信息 确定 姿态 角 并 将 其 映射 为 对 应 的 PF 状态 ,机 器 人 根据 小 脑 模型 的 输出 调 
节 下 肢 关节 ,使 机 器 人 在 步行 时 始终 保持 平衡 与 稳定 。 
[0199] ”小 脑 模型 的 输出 由 基本 单元 的 激活 状态 决定 ,t 时 刻 各 基本 单元 的 激活 状态 构成 
基本 单元 状态 向 量 ,其 与 命令 映射 向 量 的 点 乘 即 为 t 时 刻 的 关节 调整 量 。 以 人 髓 关节 作为 控 和 
对 象 ,每 一 个 输出 都 直接 作用 于 髋 关节 ,虽然 以 电机 作为 执行 元 件 ,但 可 以 将 其 视 作 人 体 中 
的 关节 -骨骼 -肌肉 系统 ,把 关节 电机 的 正 向 和 逆向 旋转 理解 为 骨骼 肌 的 收缩 与 每 张 , 所 以 
小 脑 模型 输出 的 调整 量 类 似 于 神经 电信 号 ,具有 一 定 幅 值 和 持续 时 间 。 以 髋 关节 作为 小 脑 
模型 反馈 控制 的 对 象 时 ,其 命令 映射 向 量 为 : 


[0200] D, の 一 CA dP dr dw ) (4.13) 


が 


ーー 


[0201] 其 中 , d” 是 持续 时 间 和 幅 值 可 调 的 髋 关节 调整 量 : 


[0202] A 2 人 

[0203] ”其 中 ,o 是 通关 节 调 整 量 的 基准 值 ,5 是 单位 增 量 ,通过 设置 p; 可 以 调节 输出 命令 di” 
的 幅 值 大 小 ,t. 用 来 控制 调整 过 程 的 持续 时 间 。 

[0204] ”小脑 模型 稳定 控制 器 的 学 习 过 程 的 流程 图 如 图 17 所 示 , 其 学 习 过 程 为 : (1) 初始 化 
o ;;; @%，0Y 和 7 (a) ; (2) 状态 编码 模块 根据 机 器 人 传感器 信息 ,确定 小 脑 模 型 状态 s,; (3) 
基于 当前 策略 ,选择 并 执行 行为 a ,获得 状态 s 和 立即 回报 什 r,, ,更 新 状态 值 函数 ; (0) 计 
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算 上 一 步行 为 的 TD 误差 8 ,更 新 行为 选择 概率 r, (a) ,并 根据 CF 反 馈 信息 修改 相关 神经 元 突 
触 权 值 ; (5) 判断 该 轮 学习 是 否 结束 ,未 结束 则 回 到 步 又 (2) 继续 执行 学 习 过 程 ;否则 ,对 系 
统 进行 重 置 ,并 开始 下 一 轮 学 习 过 程 , 直 到 整个 学 习 过 程 结 束 。 

[0205] ”本 实施 方式 首先 简要 介绍 了 小 脑 的 在 人 体 运 动 控制 中 的 作用 以 及 小 脑 的 结构 和 
功能 ,重点 阐述 了 攀缘 纤维 、 苔 巷 纤 维 、 浦 肯 野 细胞 以 及 下 橄榄 核 的 机 制 与 功能 ,然后 着 重 
介绍 了 强化 学 习 型 小 脑 模型 的 建 模 方法 以 及 强化 学 习 机 制 在 该 小 脑 模型 中 的 应 用 。 最 后 将 
该 小 脑 模型 应 用 于 仿 人 机 器 人 的 步行 稳定 控制 ,介绍 了 如 何 设计 基于 小 脑 模型 的 在 线 稳定 
控制 器 ,该 控制 器 以 仿 人 机 器 人 状态 信号 为 输入 ,通过 对 髓 关节 的 实时 调整 ,以 增强 仿 人 机 
器 人 行走 过 程 中 的 稳定 性 。 
[0206] ”对 于 上 述 实施 例 , 简 要 的 说 ,本 实施 例 提出 了 一 种 基于 仿生 强化 学 习 型 小 脑 模型 
的 在 线 稳定 控制 仿 人 机 器 人 ,包括 对 仿 人 机 器 人 进行 离线 步 态 规划 的 器 件 ,该 器 件 输出 使 
仿 人 机 器 人 跟踪 离线 生成 的 关节 运动 轨迹 具备 行走 能 力 ; 响 应 于 离线 步 态 的 小 脑 模型 控 上 
器 ,小脑 模型 控制 器 包括 状态 编码 模块 小脑 模 型 .下 橄 槛 反馈 模块 .运动 映射 模块 ,状态 编 
码 模块 根据 仿 人 机 器 人 传感器 采集 到 的 状态 信息 调整 PE 的 激活 状态 ,下 橄 槛 反馈 模块 基于 
环境 反馈 的 评价 信息 修改 行为 选择 概率 以 及 小 脑 神经 元 存储 权 值 ,运动 映射 模块 根据 功能 
模块 输出 调节 机 器 人 动作 。 

[0207] ”作为 优选 方案 ,对 仿 人 机 器 人 进行 离线 步 态 规划 使 用 上 述 实施 例 中 的 离线 步 态 规 
划 方 法 。 
[0208] ”进一步 的 ,运动 映射 模块 基于 如 下 方式 实现 根据 小 脑 模型 输出 调节 机 器 人 动作 : 
小 脑 模型 的 输出 由 基本 单元 的 激活 状态 决定 ,t 时 刻 各 基本 单元 的 激活 状态 构成 基本 单元 
状态 向 量 ,其 与 命令 映射 向 量 的 点 乘 即 为 t 时 刻 的 关节 调整 量 , 以 关节 作为 控制 对 象 , 每 一 
个 输出 都 直接 作用 于 关节 ,以 电机 作为 执行 元 件 ,将 模型 视 作 人 体 中 的 关节 -骨骼 -肌肉 系 
统 ,把 关节 电机 的 正 向 和 逆向 旋转 视 作 骨骼 肌 的 收缩 与 舒张 ,小 脑 模型 输出 的 调整 量 视 作 
神经 电信 号 ,具有 一 定 幅 值 和 持续 时 间 。 

[0209] “进一步 的 ,获取 关节 调整 量 基于 如 下 方式 实现 :以 某 一 关节 作为 小 脑 模型 反馈 控 
制 的 対象 時 ,其 命令 映射 向 量 为 : 

[0210 .= (a dd | (4.13) 


が 


[0211] ”其 中 ,n 为 基本 单元 个 数 , 4” 是 持续 时 间 和 幅 值 可 调 的 关节 调整 量 : 


ー デ 


ーー 


02121 od en wn 

[0213] ”其 中 ,o 是 关节 调整 量 的 基准 值 ,5 是 单位 增 量 ,p; 为 调整 量 的 幅 值 参数 ,可 以 调节 
输出 命令 4” 的 幅 值 大 小 ,t. 表 示 调 整 过 程 的 持续 时 间 ，。 

[0214] ”进一步 的 ,小 脑 模型 学 习 方 法 包括 如 下 步骤 : (1) 初始 化 PF-PF 可 塑性 突 触 权 值 
o jij'SC\BC 与 PC 之 间 联 结 形成 的 突 触 的 权 值 we ， 必 s 和 行为 选择 概率 ro (a) ; (2) 状态 编码 模 
块根 据 机 器 人 传感器 信息 ,确定 小 脑 模型 状态 s,; (3) 基于 当前 策略 ,选择 并 执行 行为 a,, 获 
得 状态 si; 和 立即 回报 值 r,,; ,更 新 状态 值 函数 ; (4) 计算 上 一 步行 为 的 TD 误差 5,, 更 新 行为 
选择 概率 r, (a) ,并 根据 CF 反馈 信息 修改 相关 突 触 突 触 权 值 ; (5) 判断 该 轮 学 习 是 否 结束 ,未 
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结束 则 回 到 步骤 (2) 继续 执行 学 习 过 程 ;否则 ,对 系统 进行 重 置 ,并 开始 下 一 轮 学 习 过 程 , 直 
到 整个 学 习 过 各 结束 。 

[0215] ”进一步 的 ,所 述 的 状态 编码 模块 :接收 仿 人 机 器 人 的 状态 信号 ,将 其 投射 为 小 脑 模 
型 中 PF 状态 ,MF 接收 小 脑 外 部 输入 的 本 体感 受信 息 , 传 递 给 GC 进行 信息 的 编码 ,一 条 MF 会 与 
多 个 GC 形成 突 触 联 系 ,CMAC 是 基于 权 值 存储 的 神经 网 络 ,CMAC 的 权 值 通过 “ 查 表 ” 来 获得 ， 
CMAC 的 输入 输出 过 程 分 为 两 个 阶段 :第 一 阶段 ,输入 信息 在 各 维度 上 都 能 找到 唯一 与 之 对 
应 的 一 组 逻辑 分 区 ,每 个 逻辑 分 区 都 能 在 实际 存储 器 找到 这 些 分 区 对 应 的 权 值 ;第 二 阶段 ， 
通过 加 权 求 和 的 方式 累加 第 一 阶段 找到 的 权 值 ,得 到 CMAC 网 络 的 输出 ; 

[0216] ”所 述 的 小 脑 功能 模块 小 脑 模型 :遵循 小 脑 的 神经 联结 结构 与 电信 号 传导 过 程 ,PF 
传递 仿 人 机 器 人 连续 状态 信息 的 编码 信号 ,输入 信号 经 由 状态 编码 模块 被 投射 到 相关 区 
域 ,BC 和 SC 在 此 过 程 中 被 激发 处 于 兴奋 状态 ,并 将 表示 BC 和 SC 状态 信息 的 参数 s 和 pi 设置 为 
“1”, @ の 4 与 鸣 表示 BC、SC 与 PC 之 间 联 结 形成 的 突 触 的 权 值 , 由 于 BC 与 SC 对 PC 起 到 抑制 的 作 
用 ,所 以 其 权 值 也 赋予 相应 的 负 值 ,PC 的 膜 电 位 值 Pi (t) 计算 如 下 : 


[0217] と (の) の 10 )+ @? ‘s+ の / * 人 か (4.1) 


[0218] “其 中 ,Pi (t) 表示 t 时 刻 PC 的 膜 电位 值 ,Pi (t) 具有 二 值 性 ,分 别 使 用 "0 和 “1 表示 
“抑制 "和 激活” 两 种 状态 ， wii(t) 是 PF-PC 可 塑性 突 触 中 存储 的 权 什 ， 代表 了 突 触 状态 对 
PC 膜 电位 的 影响 ,其 中 ,i 二 1,2 a N 表 示 第 i 个 PF, j= 二 1,2,...， M 表 示 第 j 个 PC;PF; (t) 表 
示 t 时 刻 第 i 个 PF 的 激活 状态 ,由 状态 编码 模块 的 输出 决定 ; 
[0219] ”第 j 个 PC 的 状态 S(t) 的 状态 值 由 式 (4.2) 确定 ,其 中 ,中 为 PC 的 阔 值 电位 ; 
ら ( り =9 

[0220] 3-1, fy (4.2) 

DNL 0) oO.6.(0 o」 (も ) ... ,0L (t) ] 是 表示 基本 单元 激活 状态 的 状态 向 
量 ;L 是 本 模块 中 基本 单元 的 总 数 ,由 小脑 模型 的 动作 空 z 间 决定 ,动作 空间 是 小 脑 模型 输出 
基础 动作 的 组 合 ;ol (t) 是 第 1 个 基本 单元 的 状态 ,由 下 列 公式 确定 : 


KO 
[0222] o(7 り =z| 1 一 (43) 


[0223] ”其 中 ,4 是 修正 因子 ,M 为 基本 单元 中 PC 的 个 数 ; 

[0224] PF-PC 突 触 的 兴奋 性 对 PC 膜 电 位 值 的 影响 随时 间 变 化 , e ii (9 在 每 一 t 时 刻 都 在 不 
断 调整 , 随 着 兴奋 性 的 衰减 ,其 变化 趋势 A o ii (tb) 为 : 

[0225] AG ⑪ 三 K[1-P、G)]PF、《G) UA 

[0226] ”其 中 ,kK 为 权 值 调整 系数 ; 

[0227] “在 t+l 时 刻 权 值 变化 : 

[0228] oil)= 一 or+Aoi (4.5) 

[0229] ”所 述 的 下 橄榄 反馈 模块 :在 时 刻 t, 通过 传感器 获取 机 器 人 所 处 的 状态 s (t) ,TD 算 
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法 基于 行为 选择 概率 选择 并 执行 a (t) ,得 到 下 一 状态 s G) 和 立即 回报 值 r,i, 利 用 式 (2.11 
更 新 状态 值 函 数 , 其 中 ri 是 机 器 人 此 时 与 上 一 时 刻 稳定 状态 的 比较 ,离开 稳定 状态 时 则 为 
ーー , 趋 近 稳定 状态 时 则 为 “0”; 

[0230] 小脑 的 建 模 过 程 是 相关 突 触 的 塑造 过 程 ,CF 传递 信息 的 过 程 采 用 了 强化 学 习 的 机 
制 , 试 错 过 程 的 行为 选择 概率 7 (a) 在 不 断 调整 ,同时 相关 突 触 在 此 过 程 中 得 到 改变 ;获得 
一 次 学 习 经 验 后 ,下 橄榄 模块 利用 式 (4.6) 计算 TD 误差 6. ,并 基于 式 (4.7) 和 式 (4.8) 修改 ri 
(a) ; 

[0231] 8 ニャ VC -V(s⑪) (4.6) 

[0232] pi (s(t) ;a(t)) =p, (s(t) ,a(⑩)+W6。 (4.7) 


oa) 
[0233] z, (a) =Pria(t)=a}= (48) 


で 


[0234] ”其 中 ,ps (t) ,a ) ) 为 时 刻 t 状 态 s (t) 时 选择 行为 a (t) 的 傾向 ,初始 时 各 行为 被 
选择 的 概率 相同 ,为 步 长 参数 ，Pr {a (t) 三 aj 是 t 时 刻 动作 a (t) 选择 a 的 概率 ,简写 为 Pt 
(a) ,n 表 示 可 选 动作 总 数 ; 

[0235] ”根据 5,, 得 到 CF 反馈 的 评价 性 信息 : 

[0236] c(t)=g(5) (4.9) 

[0237] ”其 中 ， 


[0238] g(x) EK 
7(Y) 三 (4.10 ) 
2 0 x<0 


[0239] ”基于 cj (t) ,调整 对 应 的 PF 权 值 : 

[0240] o 人 (4.11) 

[0241] ”其 中 ,0 为 正 的 常数 ; 

[0242] ”所 述 的 运动 映射 模块 :将 小 脑 模型 中 的 基本 单元 的 输出 映射 到 被 控 对 象 执行 相关 
空 制 命令 ;在 小 脑 模型 中 引入 了 AP6 方 法 ,每 一 个 APG 可 以 生成 一 个 运动 指令 ,与 基本 单元 输 
出 一 一 对 应 ;在 小 脑 模 型 动态 运行 过 程 中 ,每 一 t 时 刻 产 生 相 应 动作 的 计算 方式 如 下 : 

[0243] A(t) =D・O0(t) (4.12) 

[0244] ”其 中 ,D 是 运动 指令 的 集合 向 量 ,也 被 称 为 命令 映射 向 量 ,A(t) 是 t 时 刻 小 脑 模型 最 
终 的 输出 指令 ; 

[0245] ”小脑 模 型 的 输出 由 基本 单元 的 激活 状态 决定 ,t 时 刻 各 基本 单元 的 激活 状态 构成 
基本 单元 状态 向 量 , 其 与 命令 映射 癌 量 的 点 乘 即 为 t 时 刻 的 关节 调整 量 , 以 关节 作为 控制 对 
象 , 每 一 个 输出 都 直接 作用 于 关节 ,以 电机 作为 执行 元 件 , 将 模型 视 作 人 体 中 的 关节 -上 骨骼- 
肌肉 系统 ,把 关节 电机 的 正 向 和 逆向 旋转 视 作 骨骼 肌 的 收缩 与 舒张 ,小 脑 模型 输出 的 调整 
量 视 作 神 经 电信 号 ,具有 一 定 幅 值 和 持续 时 间 ; 

[0246] ”以 某 一 关节 作为 小 脑 模 型 反馈 控制 的 对 象 时 ,其 命令 映射 问 量 为 : 

[0247] の =( の 7 の の の の 9 の 9 め ) (4.13) 


[0248] ”其 中 ,4d” 是 持续 时 间 和 幅 值 可 调 的 关节 调整 量 : 
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CH+TEXxP 0<7 く 7 


dP 7 = 
[0249] ; (7) | 其 它 (4.14) 


[0250] ”其 中 ,o 是 关节 调整 量 的 基准 值 ,5 是 单位 增 量 ,通过 设置 p; 可 以 调节 输出 命令 4” 的 
幅 值 大 小 ,t. 用 来 控制 调整 过 程 的 持续 时 间 。 

[0251] ”实验 与 结果 分 析 

[0252] 1. 机 器 人 平台 与 仿真 实验 环境 

[0253] ”ROBOTIS-0P2 仿 人 机 器 人 :ROBOTIS-0P2 仿 人 机 器 人 是 韩国 ROBOTIS 公 司 开发 的 一 
款 小 型 机 器 人 平台 ,有 具有 20 个 自由 度 , 能 根据 开发 者 编写 的 程序 ,完成 足球 ,行走 ,图 像 识 
别 ,执行 动作 等 任务 .该 仿 人 机 器 人 系统 主要 包括 主 控制 器 (Main controller) 和 副 控 制 器 
(Sub controller)、 传 感 器 组 、20 个 能 机 、 摄 像 头 以 及 供电 模块 等 .其 中 主 控制 器 是 一 台 微 
型 计算 机 ,硬件 构成 包含 Intel CPU、46 内 存 、326B 硬 盘 等 ,操作 系统 为 Linux 系 统 , 副 控制 
器 起 到 连通 主 控 制 器 与 下 层 硬 件 设 备 的 功能 , 主 控制 器 仅 与 副 控制 器 进行 通信 , 副 控 制 器 
根据 主 控 制 器 的 指令 执行 下 层 硬 件 (能 机 、 加 速度 计 、 陀 螺 仪 LED 摄像头 MIC 等 ) 的 读 取 或 
写 入 操作 。 

[0254] ”机 器 人 仿真 软件 Webots: 本 发 明 考 虑 到 控制 算法 需要 在 与 环境 的 交互 中 学 习 , 如 
果 使 用 真实 机 器 人 ,会 对 机 器 人 造成 损伤 ,Webots 仿真 软件 是 一 款 功能 强大 的 开源 机 器 人 
仿真 软件 ,研究 者 能 够 使 用 它 完成 机 器 人 设计 ,场景 搭建 以 及 机 器 人 控制 程序 的 开发 等 任 
务 , 如 图 18 所 示 。 因 此 ,本 发 明 仿 人 机 器 人 的 训练 和 学 习 过 程 均 借助 Webots 软 件 的 仿真 环境 
进行 .Webots 提 供 了 丰富 的 编程 接口 和 节点 ,可 以 很 方便 地 根据 需求 搭建 所 需 的 机 器 人 和 
环境 ,常用 的 包括 各 种 执行 器 如 线性 马达 、 旋 转 马达 ,各 种 传感器 如 加 速度 计 `GPS、 陀 螺 仪 
以 及 摄像 头等 。 上 述 这 些 节 点 都 提供 了 统一 的 应 用 程序 接口 Application Programming 
Interface ,APT) ,使 用 者 可 以 通过 程序 进行 控制 和 数据 的 读 写 .Webots 内 部 集成 了 开源 物 
理 引 擎 (0pen Dynamics Engine,ODE) ,可 以 在 虚拟 环境 中 对 指定 对 象 的 物理 特性 进行 仿 
真 ,模拟 重力 、 磁 撞 和 摩擦 等 现实 时 间 中 常见 的 物理 现象 。 

[0255] ”机 器 人 联合 仿真 系统 的 搭建 :本 发 明 所 使 用 的 ROBOTIS-0P2 仿 人 机 器 人 平台 提供 
了 一 整套 的 控制 框架 ,该 框架 基于 C++ 编 程 语言 编写 ,提供 了 从 底层 到 上 层 的 一 系列 编程 接 
口 ,如 图 19 所 示 。 使 用 这 一 套 接口 ,研究 人 员 可 以 根据 自身 的 需求 快捷 方便 地 进行 新 功能 世 
开发 。 为 了 不 进行 重复 的 工作 ,同时 也 为 了 后 续 程 序 在 Webots 和 真实 机 器 人 之 间 移 植 的 方 
便 , 仍 然 治 用 C++ 作为 控制 程序 开发 的 主要 编程 语言 ,实现 了 0P2 在 理想 水 平 路 面 上 的 离线 
行走 ,同时 ,通过 预 留 控制 接口 的 方式 ,为 后 续 在 线 稳定 控制 器 的 接 入 做 好 准备 .除了 C++ 语 
言 编 写 的 主体 部 分 之 外 ,完整 的 控制 程序 还 包括 在 线 稳定 控制 部 分 ,该 部 分 的 开发 需要 基 
于 Python 语 言 以 及 MATLAB 语 言 ,这 两 种 语言 分 别提 供 了 强化 学 习 必 不 可 少 的 附加 包 以 及 强 
大 的 矩阵 运算 功能 。 此 外 ,Python 语 言 和 MATLAB 语 言 优 秀 的 数据 处 理 和 绘图 能 力 可 以 对 仿 
真实 验 数据 做 后 续 处 理 以 及 可 视 化 操作 。 基 于 以 上 原因 ,搭建 了 跨 平台 、 跨 语言 的 联合 仿真 
系统 ,在 此 系统 上 研究 者 可 以 使 用 C+t+、Python、MATLAB 等 语言 进行 联合 编程 ,不 同 的 语言 之 
间 通 过 实时 通讯 、 传 输 数 据 以 及 相互 调用 ,共同 组 成 完整 的 机 器 人 控制 器 。 最 后 统一 生成 
“Controller 可 执行 文件 ,导入 Webots 中 便 可 操控 机 器 人 的 行动 。 联 合 仿真 系统 的 开发 有 
两 个 关键 点 ,一 是 不 同 编程 语言 之 间 高 效 的 数据 传输 和 实时 通讯 ,二 是 生成 的 完整 控制 器 


一 


と: 
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在 Webots 中 操控 仿真 机 器 人 ,各 功能 模块 运行 无 异常 ,以 Webots 为 核心 的 机 器 人 联合 仿真 
系统 整体 框架 如 图 20 所 示 。 仿 真 结果 处 理子 系统 存 取 训练 产生 的 控制 模型 以 及 对 仿真 实验 
中 产生 的 数据 进行 处 理 并 执行 可 视 化 等 操作 ;机 器 人 控制 子 系统 是 联合 仿真 系统 的 主体 部 
分 ,其 中 ,MATLAB 语 言 编写 的 小 脑 模型 在 线 控制 模块 通过 MATLAB Engine 与 基于 C++ 语言 的 
离线 步行 模块 组 成 基于 小 脑 模型 的 "Controller 控制 器 , 同 理 ,Python 语言 编写 的 强化 学 
习 在 线 控制 模块 通过 C++/Python 通 信 模 块 能 与 离线 步行 模块 共同 生成 基于 强化 学 习 的 
“Controller” 控 制 器 ;Webots 仿 真 软件 中 的 0P2 加 载 “Controller” 控 制 器 执行 相应 的 实验 
任务 。 

[0256] ”下面 分 三 个 部 分 介绍 基于 联合 仿真 系统 的 机 器 人 控制 程序 的 开发 过 程 。 

[0257] (1) 机 器 人 控制 器 一 一 “Controller”:Webots 中 每 一 个 仿真 机 器 人 都 拥有 单独 的 
控制 器 ,被 称 为 “Controller”,“Controller” 是 原始 控制 程序 经 过 编译 后 生成 的 可 执行 文 
件 ,执行 方式 为 导入 Webots 并 加 载 给 对 应 的 机 器 人 。Webots 仿 真 平台 提供 了 一 个 简单 的 文 
本 编辑 器 ,考虑 到 该 文本 编辑 器 书写 和 调试 的 不 方便 ,以 及 难以 应 对 后 序 复 杂 的 开发 需求 。 
使 用 Visual Studio 这 款 功能 强大 的 集成 开发 环境 (integrated development 
environment,IDE) 来 构建 “Controller” 机 器 人 控制 器 的 主体 部 分 ,主体 部 分 的 开发 主要 基 
于 Webots 的 原生 “Webots C++API” 程 序 接口 ,并 且 通 过 设计 通讯 与 数据 传输 接口 的 方式 将 
Python 语 言 与 MATLAB 语 言 融 入 “Controller”。 

[0258] (2) 基于 C++ 和 Python 的 控制 器 开发 :由 于 “Controller 的 开发 会 涉及 到 三 种 语 
言 ,所 以 三 种 语言 之 间 的 相互 调用 以 及 通讯 是 搭建 联合 仿真 系统 的 关键 .Python 编程 语言 
是 时 下 最 热门 的 编程 语言 之 一 , 随 着 人 工 智能 的 发 展 ,Python 编 程 语言 因为 其 良好 的 可 读 
性 以 及 相 较 于 其 他 编程 语言 更 方便 简约 的 语法 ,受到 开发 人 员 的 喜爱 。 随 着 第 三 方 开源 库 
的 快速 扩展 和 优化 ,以 及 TensorFlow、PyTorch、Numpy 等 开源 库 的 出 现 ,现在 Python 以 成 为 
人 工 智 能 领域 开发 与 研究 最 重要 的 编程 语言 之 一 。 本 发 明 使 用 的 深度 强化 学 习 算法 ,需要 
借助 Python 中 的 第 三 方 库 来 实现 。 将 强化 学 习 应 用 到 仿 人 机 器 人 的 步 态 控制 ,Webots 中 机 
器 人 的 控制 器 需 由 C++ 和 Python 语言 共同 开发 ,各 自 开 发 相应 的 功能 模块 。 要 使 控制 器 能 在 
Webots 中 无 错误 执行 ,对 整个 开发 环境 的 兼容 性 要 求 很 高 ,经 过 调试 和 实验 后 ,最 终 确定 了 
Python 环境 的 细节 ,如 表 5.1 所 示 。 

[0259] “ 表 5.1 基 于 C++ 和 Python 的 联合 开发 环境 的 细节 


名 称 版 本 说 明 
python 3.7.4 Python 编程 语言 
matplotlib 3.1.2 绘图 工具 包 
[0260] numpy 1.16.6 矩阵 运算 库 
pandas 0.24.2 数据 分 析 工 具 包 
Scipy | 科学 计算 工具 包 
tensorflow 2.0.0 深度 学 习 框 架 


[0261] ”基于 C++ 和 Python 的 控制 器 在 Webots 中 成 功 运 行 对 兼容 性 要 求 较 高 ,所 以 在 机 器 
人 仿真 实验 之 前 , 先 对 两 模块 之 间 双 辣 的 信息 传递 以 及 数据 处 理 与 可 视 化 等 功能 十 分 必 
要 ,测试 无 误 后 ,生成 “Controller” 可 执行 文件 并 在 Webots 中 进行 关联 和 调用 。 
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[0262] (3⑬) 基于 C++ 和 MATLAB 的 控制 器 开发 :MATLAB 是 MATrix LABoratory (矩阵 实验 室 ) 
的 缩写 ,是 一 款 由 美国 The MathWorks 公司 出 品 的 商业 数学 软件 ,具备 交互 式 设计 的 图 形 
用 户 界 面 。MATLAB 的 基本 数据 元 素 无 需 特 意 声 明 其 维度 大 小 和 数据 类 型 ,能 帮助 开发 者 解 
决 许 多 复杂 的 计算 问题 ,尤其 是 矩阵 和 矢量 公式 的 运算 ,所 需 时 间 远 少 于 标量 非 交 互 式 语 
言 (如 C 或 Fortran) 所 花费 的 时 间 。MATLAB 同 时 也 是 一 种 用 于 工程 与 数学 计算 的 高 性 能 语 
言 , 它 集成 了 计算 、 可 视 化 和 编程 功能 ,MATLAB 的 功能 十 分 强大 ,涵盖 许多 方面 ,包括 数学 计 
算 与 算法 开发 , 建 模 、 仿 真 与 原型 制作 ,科学 与 工程 图 形 , 应 用 程序 开发 (包括 图 形 用 户 界 面 
的 构建 ) 等 .但 由 于 Matlab 开 发 平台 上 开发 的 程序 不 能 脱离 Matlab 运 行 环境 ,因而 在 处 理 
些 实际 应 用 问题 时 显得 灵活 性 不 足 。 而 C/C++ 语 言 在 实际 的 工程 应 用 中 被 广泛 使 用 ,但 是 不 
方便 进行 数据 可 视 化 处 理 , 难 以 测试 分 析 其 结果 ,此 外 也 不 具备 强大 的 矢量 和 和 矩阵 运算 能 
力 。 因 此 ,将 二 者 结合 共用 ,各 献 其 长 ,可 以 为 科研 工作 和 工程 开发 提供 更 为 强大 的 技术 文 
持 。 

[0263] “C++ 与 MATLAB 联 合 开 发 的 方式 有 许多 ,主要 包括 以 下 三 种 :GDMATLAB Coder: 
MATLAB Coder 是 一 款 官方 提供 的 代码 生成 工具 ,可 以 使 用 MATLAB 代 码 生 成 C 和 C++ 代码 。 它 
支持 大 多 数 MATLAB 语 言 和 各 种 工具 箱 ,可 以 将 生成 的 代码 作为 源 代 码 ,静态 库 或 动态 库 集 
成 到 项 目 中 ,可 以 方便 的 移植 到 不 同 的 硬件 平台 .MATLAB Coder 的 缺点 是 只 能 添加 函数 ,对 
独立 的 文件 不能 生成 。② MATLAB Compiler SDK:MATLAB Compiler SDK 支 持 将 MATLAB 程 序 
封装 打包 成 C/C++、.NET Java 或 Python 的 类 库 , 从 而 实现 其 他 编程 语言 对 于 MATLAB 程 序 的 
调用 , 除 此 之 外 MATLAB Compiler 对 于 MATLAB 代 码 进行 了 封装 ,保护 了 代码 安全 。MATLAB 
Compiler SDK 对 编程 语言 和 开发 平台 版 本 的 匹配 度 要 求 较 高 ,容易 出 现 编译 失败 或 调用 失 
敗 的 情況 。③MATLAB Engine:MATLAB EngineAPI 是 一 套 供 C++ 程 序 使 用 的 接口 ,基于 这 套 接 
口 C++ 程序 可 以 同步 或 异步 的 同 MATLAB 进 行 交 互 。 文 持 的 操作 包括 :启动 MATLAB; 连 接 到 本 
地 计算 机 上 的 MATLAB 共 享 会 话 ;直接 执行 MATLAB 语 句 和 脚本 ;将 变量 从 C++ 传递 给 MATLAB， 
从 MATLAB 传递 给 C++ 等 等 .通过 C++/MATLAB 交 互 窗口 ,MATLAB Engine 能 够 实时 观察 程序 运 
行情 况 ,调试 方便 ,使 用 者 可 以 在 程序 执行 过 程 中 随时 介入 。 基 于 这 些 优点 ,选择 MATLAB 
Engine 的 方式 来 实现 C++ 和 MATLAB 的 联合 开发 ,实际 的 开发 过 程 中 ,C++、Python 和 MATLAB 
可 以 同时 用 于 Webots 机 器 人 控制 器 的 开发 ,方法 为 (2) 和 (3) 中 所 述 内 容 的 结合 ,因此 不 再 
豚 述 。 

[0264] “2 .实验 环境 

[0265] 稳定 性 训练 平台 :为 了 对 小 脑 模型 进行 训练 ,在 Webots 仿 真 软件 中 搭建 了 一 个 稳 
定性 训练 平台 ,如 图 21 所 示 。 该 平台 最 上 方 的 台面 是 一 个 方形 平板 ,该 平板 的 形状 可 以 根据 
需要 调整 为 任意 拖 形 ,平板 的 四 个 顶点 分 别 由 四 个 由 线性 电动 机 控制 的 可 伸缩 立柱 组 成 
(这 些 立 柱 设置 为 不 可 见 ) .为 了 保证 平面 可 以 在 需要 的 范围 内 平滑 地 变化 ,在 方形 平板 的 
四 和 角 分 别 设置 了 一 个 无 阻尼 球状 关节 。 线 性 马达 可 以 分 别提 供 振 幅 和 频率 可 调 的 输出 用 于 
了 驱动 平台 ,以 产生 所 需 的 波动 来 模仿 环境 中 的 干扰 ,与 一 般 环境 下 的 训练 相 比 ,平台 上 的 训 
练 丰富 了 对 机 器 人 的 干扰 ,可 以 作为 真实 环境 训练 前 的 预 训练 ,甚至 可 以 完全 的 代 蔡 实际 
环境 的 训练 .换言之 ,在 平台 上 进行 训练 ,可 以 更 有 效 且 全 面 地 探索 机 器 人 的 状态 空间 ,使 
机 器 人 的 平衡 控制 能 力 更 加 全 面 。 在 Webots 中 搭建 好 该 平台 之 后 ,将 其 设置 为 一 个 机 器 人 
节点 ,可 以 编写 "controller 程序 对 其 进行 控制 .将 四 个 立柱 视 为 机 器 人 关节 ,控制 关节 的 
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运动 可 以 产生 模仿 环境 干扰 的 扰动 .图 22 为 稳定 性 训练 平台 的 节点 树 ,该 节点 由 五 个 子 节 
点 构成 ,分 别 代表 平台 台面 和 四 个 驱动 立柱 。 因 为 四 个 驱动 立柱 具有 相同 结构 ,所 以 图 22 中 
仅 对 右前 侧 立 柱 进行 展开 绘制 ,以 右前 侧 驱 动 立 柱 为 例 介绍 其 结构 ,该 立柱 所 包含 的 节点 
如 表 5.2 所 示 。 在 Webots 中 搭建 机 械 结构 ,与 现实 世界 大 致 相似 ,遵循 刚体 ( 连 杆 ) -关节 ( 效 
应 器 ) -刚体 ( 连 杆 ) 的 连接 方式 .“transform” 型 节点 可 视 为 固定 于 刚体 上 的 一 个 点 , “FR_ 
Transform 是 一 个 “transform 型 节点 , 指 问 方形 平台 右前 侧 顶 点 ,此 处 固 接 一 个 球状 关节 
“FR_BallJoint”, 球 状 关节 的 末端 连接 滑 块 关 节 “FR_SliderJoint” 的 起 始 端 固 接 刚体 “FR_ 
SliderJoint_Endpoint Solid” ,该 刚体 是 该 驱动 立柱 的 底座 ,其 质量 设置 为 极 大 ,可 认为 
其 固 接 于 地 面 。 滑 块 关节 中 安装 的 效应 器 为 线性 马达 "FR_Linear Motor” ,提供 平台 运动 所 
需 的 驱动 力 。 

[0266] “ 表 5.2 驱 动 立柱 的 节点 构成 (右前 側 ) 


序号 节点 名 说 明 

1 FR_Transform 矩形 台面 

2 FR_BallJoint 球状 关节 ， 能 360" 运 动 

3 FR_BallJoint EndPoint Solid 与 下 一 关节 相连 接 的 固 接 物 
[0267] 4 FR BallJoint EndPoint Shape 固 接 物 形状 限定 

5 FR_SliderJoint 滑动 关节 , 只 能 单一 方向 运动 

6 FR Linear Motor 线性 马达 , 驱使 滑动 关节 伸缩 

7 FR SliderJoint Endpoint Solid 与 下 一 关节 相连 接 的 固 接 物 

8 FR SliderJoint Endpoint Shape 固 接 物 形状 限定 


[0268] ”平台 可 以 提供 模拟 外 界 扰动 的 输出 ,通过 控制 驱动 立柱 中 的 线性 马达 ,可 以 模拟 
路 面 倾斜 .不 平整 等 对 机 器 人 造成 的 影响 。 本 发 明 主要 针对 仿 人 机 器 人 在 坡度 连续 变化 的 
路 面 环境 中 稳定 行走 的 问题 ,所 以 使 用 训练 平台 的 前 后 倾斜 来 模拟 路 面 的 起 伏 变化 ,如 图 
23 所 示 。 将 顺 时 针 方向 定义 为 正方 向 ,台面 与 水 平面 之 间 的 夹 角 为 9。 倾斜 角度 9 (t) 随时 间 
t 作 周期 性 的 改变 ,其 中 ,1 为 平台 宽度 ，1, (t) 和 1, (b) 为 台面 偏离 水 平面 的 高 度 。 使 用 该 平 
台 模拟 斜坡 环境 时 ,将 两 个 正弦 信号 作为 输入 分 别 给 到 前 侧 的 两 个 线性 马达 和 后 侧 的 两 个 
线性 马达 。 这 两 个 正弦 信号 相差 一 个 相位 ,使 平面 相对 于 水 平面 高 低 错 开 , 保 证 其 做 向 前 和 
向 后 倾斜 的 运动 。 式 (5.1) ~ (5.3) 展示 了 正弦 输入 下 随时 间 的 变化 ,和 为 常量 ,用 来 调整 
平台 倾斜 的 幅度 和 变化 的 快慢 ,此 时 ,位 于 其 上 的 机 器 人 也 会 随 之 前 倾 和 后 爷 , 身体 偏离 稳 
定位 置 , 且 由 于 并 不 固 接 于 台面 之 上 ,机 器 人 有 跌倒 的 危险 ,使 用 这 种 方式 模拟 坡度 变化 的 
斜坡 环境 ,训练 机 器 人 在 坡度 连续 变化 的 环境 中 维持 平衡 的 能 


[0269] 1()= Asin( Fi+7) (5.1) 


[0270] L(t)= AsinZn) (5.2) 


[0271] 60(①) 三 arctan ( (Ll;) /1) (5.3) 
[0272] ”斜坡 环境 :为 了 验证 机 器 人 在 斜坡 环境 中 稳定 行走 的 能 力 ,使 用 Wings 3D 软 件 绘 
制 实验 所 需 的 斜坡 环境 .Wings 3D 是 一 款 免费 且 开源 的 三 维 模型 绘制 软件 ,如 图 24 所 示 , 它 
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能 够 创建 精度 较 低 的 多 边 形 模型 以 及 进行 纹理 的 演 染 ,在 Wings 3D 中 主要 有 四 中 元 素 可 以 
进行 选择 : 体 、 面 、 边 和 顶点 ,可 以 通过 更 改 这 些 元 素来 对 模型 进行 修改 ,不 同 元 素 的 选择 和 
参数 的 改变 会 有 不 同 的 效果 ,使 用 起 来 非常 灵活 ,同时 ,Wings 3D 兼 容许 多 材质 以 及 纹理 ， 
并 具有 二 维 图 像 到 三 维 模型 表面 的 UV 映射 能 力 , 斜 坡 环境 在 Wings 3D 中 绘制 完成 之 后 , 导 
出 成 VRML (Virtual Reality Modeling Language ,虚拟 现 实 建 模 语言 ) 文件 ,再 将 其 导入 
Webots 仿 真 软件 中 。 如 图 25 所 示 , 所 设计 的 斜坡 环境 是 一 条 坡度 不 断 变 化 的 带 状 路 面 ,其 
最 左 端的 倾斜 角度 为 0 ” ,路 面 往 右 延伸 角度 依次 增 大 ,在 中 间 位 置 倾斜 角度 达到 最 大 值 , 之 
后 再 依次 减 小 到 0° 。 用 这 一 条 道路 来 测试 路 面 倾斜 且 坡 度 不 断 变化 时 机 器 人 的 稳定 行走 能 
力 。 

[0273] 3. 实验 与 结果 

[0274] .基于 强化 学 习 的 在 线 步 行 稳定 控制 实验 :在 本 发 明 中 ,将 离线 步 态 规划 以 及 基 
于 强化 学 习 的 在 线 稳定 控制 器 编写 成 仿 人 机 器 人 控制 程序 来 测试 算法 的 有 效 性 ,控制 程序 
的 编写 以 及 所 有 的 实验 过 程 均 在 自主 搭建 的 联合 仿真 系统 中 完成 ,在 斜坡 环境 中 行走 时 ， 
随 着 坡度 的 变化 , 仿 人 机 器 人 会 渐渐 偏离 稳定 状态 ,直至 质心 和 ZMP 离 开 足 底 文 撑 区 域 ,机 
器 人 会 摔 倒 从 而 无 法 继续 前 进 。 在 Wepots 仿真 环境 中 建立 了 坡度 连续 变化 的 斜坡 环境 ,该 
环境 的 示意 图 如 图 26 所 示 。 机 器 人 步行 起 始 位 置 是 斜坡 的 最 左边 ,此 处 的 坡度 为 0 ,之 后 随 
着 路 面 的 延伸 坡度 渐渐 增加 , 到达 中 间 位 置 时 倾斜 角度 最 大 ,再 往 右 坡度 渐渐 减 小 恢复 到 
坡度 为 0 的 水 平 路 面 。 使 用 该 斜坡 环境 来 模仿 现实 世界 中 坡度 连续 变化 的 非 水 平 路 面 。 仿 
人 机 器 人 被 置 入 斜坡 环境 中 进行 了 学 习 训 练 , 本 次 训练 中 ,强化 学 习 算 法 的 参数 设置 如 表 
5.3 所 示 , 同 时 使 用 式 (3.32) 作为 立即 回报 函数 ,图 27 直 观 的 展示 了 训练 的 效果 ,其 横 坐 标 
是 训练 的 回合 数 ,每 一 回合 训练 的 结束 条 件 只 有 仿 人 机 器 人 稳定 的 走 完全 程 ,或 者 机 器 人 
摔 倒 , 纵 坐 标 为 一 回合 中 仿 人 机 器 人 行走 的 总 步 数 。 从 图 26 中 可 以 看 出 , 随 着 训练 回合 数 的 
增加 , 仿 人 机 器 人 稳定 行走 的 步 数 也 不 断 增 加 。 观 察 学 习 过 程 中 每 回合 步 数 变化 情况 ,1- 
100 回 合 内 , 仿 人 机 器 人 的 行走 步 数 较 少 ,而 100 回 合 往 后 仿 人 机 器 人 越 来 越 多 地 能 走 完 全 
程 ,而 中 间 零 星 会 出 现 低 步 数 回合 ,是 因为 Actor 还 未 完全 收敛 到 最 优 策略 ,所 以 仍 有 概率 
出 现 摔 倒 的 情况 ,直到 350 回 合 往 后 ,强化 学 习 算 法 完全 收敛 之 后 每 一 回合 中 仿 人 机 器 人 都 
能 顺利 的 走 完 全 程 。 

[0275] “” 表 5.3 强 化 学 习 算 法 参数 设置 


参数 说 明 人 
Cucior Actor 学 习 因 子 0.001 
0276 
| | Qoritic Critic 学 习 因 子 0.01 
ア 折扣 因子 0.9 
e 回合 数 400 


[0277] ”图 28 展 示 了 仿 人 机 器 人 在 斜坡 环境 中 行走 时 俯仰 轴 方 向 的 躯干 倾角 .为 了 更 好 地 
观察 最 干 倾 角 的 变化 情况 ,采集 到 的 数据 经 过 无 权重 移动 平均 处 理 , 使 用 的 移动 窗口 大 小 
为 15. 图 28 中 的 下 方 曲 线 表 示 的 是 无 强化 学 习 稳定 控制 器 在 线 调整 时 , 仿 人 机 器 人 了 入 干 倾 
角 的 变化 过 程 , 角度 为 0 表示 垂直 与 水 平 线 的 紧 直 状态 , 负 角 度 表 示 向 后 仰 倒 , 可 以 明显 的 
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看 出 , 随 着 坡度 的 增 大 , 仅 跟 随 离 线 关 节 轨 迹 行走 的 仿 人 机 器 人 ,渐渐 偏离 稳定 状态 ,最 终 
在 第 3550 次 采样 点 附近 摔 倒 .上 方 曲线 表示 的 是 有 强化 学 习 稳 定 控制 器 在 线 调整 的 情况 ， 
仿 人 机 器 人 除了 跟踪 离线 预 规划 步 态 之 外 ,还 会 在 线 调整 下 上 肢 俯 仰 轴 上 六 个 关节 的 旋转 角 
度 以 应 对 路 面 坡度 的 变化 ,可 以 看 出 仿 人 机 器 人 在 和 斜坡 环境 上 行走 的 过 程 中 ,俯仰 轴 方 向 
的 躯干 倾角 始终 在 0 轴 附 近 波 动 ,说 明 仿 人 机 器 人 行走 过 程 中 能 够 始终 维持 身体 姿态 的 稳 
定 , 保 持 躯 干 的 正直 ,证 明了 强化 学 习 方法 的 有 效 性 。 

[0278] 图 29 和 图 30 分 别 展示 了 和 斜坡 行走 过 程 中 坡度 增加 以 及 坡度 减少 时 机 器 人 下 上肢 关 
节 角 度 的 实时 变化 过 程 .可 以 看 出 ,各 关节 运行 轨迹 随 坡度 变化 在 不 断 变 化 ,这 是 强化 学 习 
在 线 稳定 控制 器 在 调节 下 肢 关 节 以 应 对 斜坡 倾斜 角度 增加 或 减少 同时 ,关节 角度 曲线 都 
较为 光滑 ,没有 突变 以 及 阶 跃 现象 ,说 明 调整 动作 之 间 的 过 渡 平 清 , 这 也 更 进一步 的 保证 了 
机 器 人 的 步行 稳定 。 这 些 仿真 结果 表明 ,以 仿 人 机 器 人 作为 Agent ,在 离线 步 态 规划 的 基础 
上 ,结合 强化 学 习 在 线 稳定 控制 ,能 使 其 通过 自主 学 习 对 环境 具备 一 定 的 适应 能 

[0279] 图 31 是 仿 人 机 器 人 斜坡 环境 行走 过 程 的 关键 帧 ,能 更 直观 地 看 到 有 无 强化 学 习 进 
行 在 线 稳定 性 控制 时 仿 人 机 器 人 和 斜坡 行走 的 表现 .图 31 的 (a) 中 仿 人 机 器 人 走 到 一 半 向 后 
摔 倒 ,而 在 图 31 的 (5) 中 仿 人 机 器 人 稳定 地 走 完全 程 . 可 以 看 出 ,无论 地 面 倾斜 角度 如 何 变 
化 , 机 器 人 的 駆 干 始 笑 能 保持 正 真 , 現 明歩 行 穏 定性 良好 。 

[0280] ”本 发 明 在 上 述 强化 学 习 算 法 的 基础 上 ,重新 设计 了 连续 型 立即 回报 函数 如 式 
(3.33) ,改变 了 对 控制 算法 的 奖惩 方式 ,从 原来 只 要 躯干 倾角 保持 在 稳定 区 间 内 (前 后 倾斜 
小 于 5 7) 就 能 获得 固定 奖励 ,转变 为 越 靠近 理想 稳定 位 置 (躯干 垂直 于 水 平面 ,倾角 为 0”) 
越 能 获得 更 高 的 奖励 ,奖励 与 倾斜 角度 呈 负 相关 ,直到 超过 稳定 闵 值 (下 负 5") ,获得 数值 固 
定 的 惩罚 ,使 用 该 立即 回报 函数 的 学 习 过 程 如 图 32 所 示 , 与 图 27 进 行 比较 ,可 以 看 出 算法 的 
收敛 速度 更 快 ,到 150 回 合 之 后 ,机 器 人 不 再 会 摔 倒 ,每 次 都 能 顺利 走 完全 程 。 除 了 加 快 
Agent 的 训练 与 学 习 速度 ,使 其 更 快 地 收敛 之 外 ,两 种 立即 回报 函数 最 终 训练 出 来 的 控制 器 
在 斜坡 环境 中 的 表现 没有 差别 。 

[0281] 二 .强化 学 习 小 脑 模型 的 在 线 步 行 稳定 控制 实验 :本 发 明 已 经 对 引入 了 强化 学 习 
理论 的 小 脑 模型 以 及 基于 该 小 脑 模型 建立 的 机 器 人 步行 在 线 稳定 控制 器 做 了 详细 的 介绍 。 
本 发 明 将 对 该 算法 的 有 效 性 进行 仿真 验证 , 仿 人 机 器 人 的 重量 主要 集中 于 上 半身 , 主 副 控 
由 器 、 传 感 器 元 件 以 及 电池 等 都 放置 在 胸腔 内 ,这 就 使 得 仿 人 机 器 人 行走 过 程 中 的 最 干 位 
置 非常 重要 。 释 干 偏 移 过 大 会 导致 其 因为 质心 与 ZMP 点 离开 支撑 平面 而 控 倒 。 髋 关节 最 靠近 
仿 人 机 器 人 人 上身, 其 旋转 角度 的 变化 直接 影响 氢 干 位 置 ,因此 ,实验 中 选用 信仰 轴 髋 关节 作 
为 小 脑 模 型 的 调整 对 象 , 通 过 在 行走 过 程 中 对 其 进行 实时 的 补偿 ,使 其 能 够 应 对 坡度 变化 
的 斜坡 环境 .为 了 对 小 脑 模 型 进行 充分 训练 , 先 将 仿 人 机 器 人 置 于 稳定 性 训练 平台 上 ,并 使 
用 它 来 模拟 斜坡 环境 中 的 坡度 变化 ,然后 再 将 仿 人 机 器 人 放 到 斜坡 环境 中 进行 行走 验证 。 
[0282] (1) 平 台 训 练 :基于 上 述 对 稳定 性 训练 平台 的 描述 ,给 训练 平台 的 前 后 两 对 驱动 立 
柱 分 别 给 予 相差 一 个 相位 的 正弦 信号 输入 ,用 台面 的 前 后 倾斜 来 模拟 坡度 起 伏 变 化 的 斜坡 
环境 .台面 角度 0 随时 间 的 变化 图 如 图 33 所 示 , 当 平台 台面 前 后 倾斜 时 ,站 立 在 台面 之 上 的 
机 器 人 的 状态 也 随 之 改变 .为 了 维持 稳定 性 ,小 脑 模 型 以 加 速度 计 与 陀螺 仪 传感器 的 数据 
解 算 出 的 机 器 人 的 躯干 姿态 角 作 为 状态 输入 s, 实 时 地 调整 机 器 人 的 通关 节 ,使 仿 人 机 器 
人 的 状态 始终 维持 在 稳定 的 区 间 之 内 。 初 始 化 小 脑 模 型 时 ,为 了 保证 训练 过 程 中 对 所 有 行 
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为 进行 充分 的 尝试 ,采用 乐观 初始 值 法 将 状态 值 都 设 为 “1”, 此 时 ,所 有 行为 的 选择 概率 相 
同 ,训练 过 程 中 ,小 脑 模型 基于 状态 输入 对 各 基本 单元 进行 尝试 性 的 激活 ,之 后 根据 CF 有 反馈 
的 评价 性 信息 调整 相关 区 域 的 权 值 ,以 及 对 应 的 行为 选择 概率 ,以 此 找寻 最 优 策略 ,实际 上 
训练 过 程 认 为 这 是 小 脑 模型 建 模 的 最 后 一 步 , 直 到 小 脑 模型 取得 维持 机 器 人 稳定 性 的 能 
力 , 建 模 完 成 。 此 外 ,训练 过 程 并 未 设置 结束 的 条 件 , 只 有 在 机 器 人 摔 倒 时 会 重 置 整个 训练 
环境 , 重 置 之 前 的 训练 成 果 会 保留 下 来 ,新 的 训练 在 这 基础 上 进行 ,训练 结束 的 方式 是 通过 
外 部 人 为 中 断 ,之 后 再 执行 对 模型 后 续 的 处 理 。 图 35 展 示 的 是 一 次 训练 的 结果 ,经 过 训练 时 
间 后 的 小 脑 模型 能 够 始终 将 机 器 人 躯干 姿态 角 维持 在 稳定 范围 之 内 。 几 35 的 (a) 和 图 35 的 
(p) 分 别 展 示 了 训练 前 和 训练 后 机 器 人 随 平台 运动 的 变化 情况 ,可 以 看 出 ,训练 前 仿 人 机 器 
人 随 着 平台 的 运动 而 前 后 摆动 ,而 训练 后 仿 人 机 器 人 能 通过 调整 骨 关 节 维 持 身体 的 正直 。 
仿 人 机 器 人 受 平 台 运动 影响 前 后 倾斜 时 ,加 速度 计 的 数值 也 随 之 改变 ,其 中 加 速度 计 Y 轴 
(前 后 方向 ) 的 数值 变化 幅度 最 大 ,图 34 展 示 了 训练 前 和 训练 后 平台 运动 时 仿 人 机 器 人 前 后 
方向 加 速度 的 变化 过 程 。 训 练 前 仿 人 机 器 人 随 平 台 的 运动 而 前 后 摇摆 ,如 实 线 所 示 ,前 后 方 
向 加 速度 数据 呈现 出 周期 性 波动 变化 ,此 时 仿 人 机 器 人 完全 受到 平台 运动 的 影响 ,而 训练 
后 的 情况 如 图 34 中 虚线 所 示 , 加 速度 数据 的 变化 幅度 减 小 ,图 36 展 示 了 训练 后 小 脑 模 型 执 
行 时 一 段 时 间 之 内 各 基本 单元 的 输出 。 从 图 36 中 可 以 看 出 各 基本 单元 的 激活 频率 有 向 第 
5、 第 6 基本 单元 集中 的 趋向 ,而 初始 状态 的 小 脑 模 型 输出 是 随机 的 ,这 表明 训练 后 ,小 脑 模 
型 习 得 了 某 种 行为 模式 使 机 器 人 更 能 维持 在 竖 直 稳定 状态 。 训 练 过 程 中 小 脑 模 型 各 基本 单 
元 对 应 CF 的 状态 随 学 习 次 数 的 变化 如 图 37 所 示 。 可 以 看 到 第 5、 第 6 基本 单元 的 CF 在 一 定 次 
数 的 学 习 之 后 才 开 始 被 激活 ,而 其 余 基 本 单元 大 都 状态 变化 频繁 ,这 与 图 36 较 为 吻合 ,说 明 
小 脑 模 型 在 经 过 了 一 定 次 数 的 学 习 后 才 开 始 获得 某 种 行为 模式 。 

[0283] (2②) 斜坡 行走 :将 训练 后 的 小 脑 模型 用 于 执行 仿 人 机 器 人 在 斜坡 环境 中 行走 的 任 
务 ,斜坡 环境 如 图 37 所 示 ,前 低 后 高 ,倾斜 角度 范围 为 0" 一 7” ,中 间 位 置 角度 最 大 为 7° ,图 38 
展示 了 仿 人 机 器 人 斜坡 环境 行走 时 的 关键 帧 ,图 38 的 (a) 展示 了 无 小 脑 模型 进行 在 线 稳定 
性 控制 时 仿 人 机 器 人 会 在 中 途 因 向 后 倾斜 失去 稳定 性 而 摔 倒 ,斜坡 行走 失败 。 有 小 脑 模型 
在 线 调整 的 仿 人 机 器 人 斜坡 行走 实验 过 程 如 图 38 的 (b) 所 示 ,路面 倾斜 时 小 脑 模型 对 仿 人 
机 器 人 进行 在 线 稳定 控制 ,结合 离线 预 规划 步 态 实现 了 在 坡度 变化 的 斜坡 环境 上 的 连续 行 
走 。 图 39 是 斜坡 行走 过 程 中 仿 人 机 器 人 俯仰 轴 躯 干 倾 角 随 时 间 变 化 的 曲线 ,角度 为 正 时 前 
倾 , 角度 为 负 时 后 仰 。 上 方 曲线 使 用 了 小 脑 模型 , 仿 人 机 器 人 和 鸳 干 倾角 始终 维持 在 一 定 范围 
内 ,没有 随 坡度 的 倾斜 而 剧烈 变化 ,下 方 曲 线 展 示 了 仿 人 机 器 人 渐渐 倾斜 直至 摔 倒 的 过 程 。 
[0284] ”在 本 发 明 中 ,首先 简要 的 介绍 了 ROBOTIS-0P2 仿 人 机 器 人 平台 的 硬件 配置 、 软 件 控 
制 系统 以 及 所 具备 的 能 力 。 然 后 实现 了 联合 仿真 系统 的 设计 与 搭建 ,包括 总 体系 统 的 框架 ， 
以 及 各 子 模块 的 说 明和 搭建 方法 ,该 系统 具有 跨 平台 、 跨 语言 两 大 特性 ,能 够 同时 使 用 
Python、C++、MATLAB 进 行 机 器 人 控制 器 开发 ,三 种 语言 取长补短 ,分 别 借助 各 自 的 IDE 实 现 
开发 过 程 ,最 终 合 并 生成 完整 的 机 器 人 控制 器 ,为 程序 的 编辑 、 调 试 以 及 数据 的 采集 提供 了 
便利 。 最 后 ,针对 机 器 人 面 对 坡度 连续 变化 的 路 面 环境 时 ,难以 保持 稳定 行走 的 问题 ,分 别 
使 用 强化 学 习 稳定 控制 器 和 小 脑 模型 稳定 控制 器 进行 了 仿真 实验 ,实验 结果 证 明了 这 两 种 
方法 的 有 效 性 ,实现 了 机 器 人 在 斜坡 环境 中 的 稳定 行走 。 

[0285] ”本 发 明 以 仿 人 机 器 人 为 研究 对 象 ,针对 仿 人 机 器 人 在 非 平整 路 面 环 境 中 难以 稳定 
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行走 的 问题 ,将 离线 预 规划 步 态 与 在 线 稳定 性 调整 相 结合 ,分 别 设计 了 两 种 在 线 稳定 控制 
器 , 即 AC 强 化 学 习 稳定 控制 器 和 TD 强化 学 习 小 脑 模型 稳定 控制 器 。 两 种 方法 都 能 通过 学 习 
获得 维持 机 器 人 平衡 的 能 力 , 并 且 能 进一步 应 用 于 斜坡 环境 中 。 本 发 明 的 主要 研究 成 果 有 
以 下 几 个 方面 : 

[0286] (1) 搭建 了 基于 Webots 仿 真 软件 的 联合 仿真 系统 ,该 系统 具有 跨 平 台 跨 语言 的 特 
性 ,实现 了 Python、C++、MATLAB 三 种 语言 的 联合 开发 ,共同 生成 机 器 人 的 控制 程序 ,有 助 于 
解决 控制 算法 发 展 趋向 复杂 化 、 多 样 化 所 导致 的 单一 语言 开发 不 便 的 问题 。 
[0287] (2) 在 离线 步 态 规划 的 基础 上 ,根据 仿 人 机 器 人 的 步行 特性 ,构建 了 基于 AC 强 化 学 
习 算 法 的 步行 稳定 性 控制 方法 。 该 方法 以 坡度 连续 变化 的 斜坡 环境 作为 目标 环境 ,有 针对 
性 地 设计 了 强化 学 习 的 各 个 要 素 。 在 步行 过 程 中 ,基于 传感器 信息 对 下 肢 关节 进行 补偿 控 
制 ,实现 了 仿 人 机 器 人 对 自身 姿态 的 实时 调整 。 另 外 , 探讨 了 连续 型 与 离散 型 立即 回报 函数 
对 训练 中 收敛 速度 的 影响 。 最 后 ,在 仿真 环境 中 进行 了 斜坡 行走 实验 ,实验 结果 验证 了 该 方 
法 的 有 效 性 。 
[0288] (3) 以 小 脑 的 运动 平衡 功能 为 基础 ,从 仿生 学 的 角度 出 发 ,结合 强化 学 习 理 论 搭建 
了 仿 小 脑 的 运动 控制 模型 ,基于 该 新 型 小 脑 模 型 设计 了 自 适 应 在 线 稳定 控制 器 ,该 控制 器 
无 需 机 器 人 系统 的 精确 建 模 ,通过 采集 机 器 人 的 实时 姿态 信息 来 对 下 上 肢 关 节 进 行 补偿 控 
制 。 为 了 对 控制 器 进行 充分 训练 ,在 仿真 环境 中 搭建 了 稳定 性 训练 平台 来 模拟 环境 中 的 扰 
动 。 训 练 过 程 中 ,小 脑 模 型 基于 编码 后 的 状态 信息 激活 相应 的 基本 单元 来 输出 动作 ,并 通过 
下 橄榄 反馈 模块 传递 的 评价 信息 更 新 PF-PC 权 值 直 至 控制 器 收敛 ,仿真 实验 表明 ,经 过 强化 
学 习 训 练 后 的 小 脑 模 型 具备 了 维持 机 器 人 平衡 的 能 力 。 相 较 于 无 小 脑 模型 在 线 调整 的 机 器 
人 ,有 小 脑 模 型 的 机 器 人 在 斜坡 环境 中 取得 了 更 优秀 的 表现 。 

[0289] ”本 发 明 以 ROBOTIS-0P2 小 型 仿 人 机 器 人 作为 研究 平台 ,致力 于 研究 其 在 复杂 环境 
中 稳定 行走 的 方法 ,首先 ,基于 7ZMP 理 论 和 三 次 样 条 插值 法 确定 了 仿 人 机 器 人 的 离线 步行 模 
式 , 并 使 用 神经 网 络 对 策略 进行 拟 合 ,基于 Actor Critic 算 法 实现 连续 状态 输入 下 的 在 线 
稳定 控制 。 之 后 ,利用 控制 学 方法 进一步 建立 了 基于 小 脑 机 理 和 强化 学 习 的 机 器 人 仿生 控 
制 模 型 .为 了 提高 开发 效率 ,以 及 提供 算法 的 实验 验证 平台 ,开发 了 跨 平 台 、 跨 语言 的 联合 
仿真 系统 。 

[0290] ”本 发 明 在 分 析 了 ROBOTIS-0P2 的 主要 参数 和 结构 性 能 的 基础 上 ,设计 了 离线 步 态 
规划 方法 ,针对 离线 步 态 无 法 适应 复杂 坏 境 的 问题 ,提出 了 一 种 基于 Actor Critic 强 化 学 
习 算 法 的 在 线 稳定 性 控制 方法 。 通 过 直接 接收 连续 的 状态 信息 ,该 方法 实现 了 输入 信和 号 到 
输出 关节 角度 补偿 值 的 端 到 端 控制 。 在 此 基础 上 使 用 三 次 样 条 插值 法 构建 了 动作 衰减 策 
略 ,实现 了 动作 之 间 的 平滑 过 渡 。 为 了 提高 收敛 速度 ,设计 了 连续 型 立即 回报 值 函 数 ,提高 
了 学 习 效率 。 
[0291] 本 发 明 在 强化 学 习 的 基础 上 ,进一步 研究 小 脑 的 运动 控制 机 理 ,设计 了 基于 仿生 
强化 学 习 型 小 脑 模型 的 在 线 稳定 控制 器 。 该 小 脑 模型 以 小 脑 的 生理 解剖 结构 为 基础 ,在 下 
橄榄 反馈 环节 引入 强化 学 习 机 制 ,通过 学 习 能 够 将 仿 人 机 器 人 行走 过 程 中 的 状态 信息 映射 
到 相应 的 命令 输出 ,实时 调整 机 器 人 步行 姿态 ,详细 介绍 了 所 用 的 小 脑 模 型 ,以 及 基于 该 模 
型 设计 的 仿 人 机 器 人 步行 稳定 控制 器 的 整体 框架 和 细节 。 考 虑 到 仿 人 机 器 人 的 训练 和 学 习 
需要 大 量 与 环境 交互 获得 的 数据 ,本 发 明 采 用 在 仿真 环境 中 训练 的 方式 进行 ,基于 Webots 
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仿真 软件 搭建 了 器 平 台 跨 语言 的 开发 环境 ,为 研究 中 算法 的 开发 与 实验 验证 葛 定 了 基础 。 
通过 将 程序 编辑 编译 与 运行 过 程 相 分 离 , 对 环境 整体 框架 及 其 各 个 子 模块 做 了 深入 设计 ， 
包括 搭建 过 程 和 用 到 的 工具 ,以 及 一 些 重 要 的 应 用 程序 接口 和 环境 中 需要 注意 的 关键 细 
节 。 最 后 ,在 此 环境 中 进行 了 仿 人 机 器 人 步行 仿真 实验 ,验证 了 上 述 两 种 在 线 稳 定性 控制 方 
法 的 有 效 性 ,并 对 实验 结果 进行 了 分 析 与 探讨 。 
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